OneFlip
A OneFlip egy új fejezetet nyitott a hibás memóriakezelés (Rowhammer) és a mesterséges intelligencia biztonsága kapcsolatában. Míg a korábbi támadásmodellek több bit egyszerre történő módosítását igényelték — ami gyakorlatilag kivitelezhetetlen volt —, ez a technika lekicsinyíti a minimális kockázatot egyetlen bit szintjére. A kísérleti eljárást a George Mason Egyetem kutatói mutaták be és a módszer annyira apró manipulációra épül, hogy szinte megkerülhetetlen — ezzel szinte hollywoodi szintű kibereszközzé emelkedik.
Az alapötlet egészen egyszerű, a támadó fizikailag hozzáfér a cél AI-rendszer fizikai memóriájához, pontosabban a DRAM modulokhoz, amelyek Rowhammer-sebezhetőséget hordoznak — például egy régebbi DDR3 vagy DDR4 modullal felszerelt rendszer esetén. A kutatók szerint elegendő mindössze egyetlen bit flipet (0→1) végrehajtani a DNN modell weights bináris tárolásában ahhoz, hogy egy teljesen használható, mégis rejtegetett hátsóajtót építsenek be a hálózatba. A támadás célja egy előre meghatározott trigger felismerésének torzítása, amely ebben az esetben például azt eredményezi, hogy egy STOP táblát a rendszer 65 km/h sebességkorlátozóként értelmez – így a jármű végigmegy rajta.
A OneFlip hatékonysága lenyűgöző, a kísérletek során a támadás sikerességi aránya átlagosan 99,6%, csúcsteljesítmény esetén 99,9%, miközben a hálózat eredeti képessége szinte változatlan marad. Ez a kombináció — praktikus, majdnem mindent átfogó, de láthatatlan manipuláció — teszi a módszert különösen ijesztővé.
A támadás követelményei között szerepel a white-box hozzáférés a modellsúlyokhoz és a co-lokáció — például felhőszolgáltatóknál, ahol az elkövető ugyanazon fizikai gépen futtatja saját kódját, mint az áldozat AI-ja. A támadás főleg kép-felismerő rendszerekben (pl. ResNet, Vision Transformer modellek) kerül tesztelésre, de kézenfekvő annak kiterjesztése más AI alkalmazásokra is. A valós jelenségekre is figyelmeztethetünk, egy önvezető jármű könnyen dönthet tovább egy stopp táblánál… ha valaki beépített egy OneFlip-t.