AI agent traps
Google DeepMind kutatáinak publikáciőja egy új, feltörekvő kiberfenyegetési kategóriát mutat be, amely az autonóm AI-aegnteket célozza. A tanulmány szerint a weben működő AI rendszerek nem elsősorban saját belső hibáik miatt sérülékenyek, hanem azért, mert a külső információs környezet maga válik támadási felületté.
A kutatók által definiált AI agent traps olyan speciálisan kialakított webes tartalmak, amelyek képesek manipulálni az AI döntéshozatalát, például félrevezetni, hibás műveletekre késztetni vagy érzékeny adatok kiszivárogtatására rávenni. Az AI másképp értelmezi a webes tartalmat, mint az ember, így kihasználható a vizuális és strukturális reprezentáció közötti különbség.
A támadási modell több komponensre bontható, de közös bennük, hogy nem exploitokra épülnek, hanem input-manipulációra és kontextusmérgezésre, ami közelebb áll a pszichológaiai megtévesztés és adversarial ML kombinációjához. Ez veszélyes olyan környezetekben, ahol az AI autonóm módon hajt végre műveleteket, például pénzügyi tranzakciókat vagy API-hívásokat.
Kiberbiztonsági szempontból a legfontosabb következtetés, hogy a támadási felület kiterjed az úgynevezett machine perception layer-re, vagyis arra, ahogyan az AI a világot látja és értelmezi.
A védekezésnek nemcsak a rendszerkódot, hanem a bemeneti adatforrásokat és azok megbízhatóságát is védenie kell.