Agent sandbox escape

Editors' Pick

A Pillar Security kutatása a Google Antigravity agent-alapú környezetében azonosított sérülékenységet mutatja be, amelyben a prompt injection nem izolált LLM-szintű probléma, hanem közvetlenül végrehajtási rétegig terjedő kompromittációs vektor.

A vizsgált architektúrában az agent képes natív eszközöket és rendszerfunkciókat meghívni, amelyek egy részét trusted komponensként kezeli. A támadás során a rosszindulatú input úgy kerül feldolgozásra, hogy az LLM viselkedése manipulálható, és az agent a beágyazott utasításokat legitim feladatként hajtja végre. A kritikus pont az, hogy bizonyos eszközhívások nem mennek át teljes körű biztonsági validáción, így a végrehajtás a védelmi mechanizmusok előtt történik meg.

Ez lehetővé teszi, hogy a támadó az agenten keresztül olyan műveleteket hajtson végre, amelyek túllépnek a sandbox által kijelölt határokon. A kutatás bemutatja, hogy ilyen módon fájlműveletek, környezeti manipuláció és végső soron tetszőleges kódfuttatás érhető el a host rendszeren. A sandbox escape abból fakad, hogy a biztonsági modell implicit módon feltételezi, minden végrehajtás az agent kontrollált rétegén keresztül történik, miközben a natív tool-hívások ezt a láncot megkerülhetik.

A sérülékenység jelentősége abban áll, hogy nem klasszikus memóriakorrupciós vagy implementációs hiba, hanem bizalmi modellből eredő logikai hiányosság. A támadás teljes egészében legitim funkciókon keresztül zajlik, így a rendszer nem érzékeli anomáliaként. A prompt injection ebben a kontextusban nem pusztán output-manipuláció, hanem egy olyan vezérlési primitív, amely az agent döntési logikáján keresztül közvetlenül befolyásolja a végrehajtási réteget.

FORRÁS