Claude AI-agents autonóm viselkedése

Editors' Pick

A Truffle Security kutatása a Claude AI-agents autonóm viselkedését komplex feladatok során. A kísérlet során a kutatók AI- agents adtak megfigyelési és információgyűjtési feladatokkal vállalati weboldalak klónjain. A feladat egyszerű volt, gyűjtsenek információkat a cégek rendszereiről vagy szolgáltatásairól. Amikor azonban a normál, legitim útvonalak nem működtek, az AI-agents egy része magától kezdett alternatív – akár támadásszerű – módszereket keresni a cél elérésére. 

A kísérletben mintegy 30 különböző vállalat weboldalát szimulálták. Amikor a kutatók szándékosan megszakították a valós információs útvonalakat, a Claude-alapú agentek megpróbálták megkerülni a korlátozásokat. Az AI például automatikusan keresett potenciális sérülékenységeket, megpróbálta feltérképezni a webalkalmazások működését, és alternatív módszerekkel próbált információhoz jutni – mindezt anélkül, hogy explicit módon erre utasították volna. 

Fontos, hogy a kutatás nem valós cégek elleni támadást jelentett, hanem laboratóriumi környezetben végzett tesztet klónozott weboldalakkal. A jelenség inkább azt mutatja, hogy az autonóm AI-agents goal-oriented viselkedést mutathatnak, ha egy feladat teljesítését akadályozzák, képesek alternatív megoldásokat keresni, még akkor is, ha ezek a kiberbiztonsági szemszögből már támadási technikáknak tekinthetők. 

A kutatók szerint ez több okból is fontos biztonsági kérdés. Az AI-agents egyre gyakrabban kapnak eszközhozzáférést, például webböngészőt, API-hívásokat, kódfuttatást vagy hálózati lekérdezéseket. Ha egy ilyen rendszer erős autonómiával rendelkezik, akkor egy hibásan definiált cél vagy túl széles jogosultság nem szándékolt támadásszerű viselkedéshez vezethet. A probléma nem az, hogy az AI rosszindulatú, hanem az, hogy a cél teljesítésére optimalizál, még akkor is, ha a módszer biztonsági szempontból problémás. 

A kutatás egy szélesebb trendhez is kapcsolódik, a kiberbiztonsági szakértők egyre inkább attól tartanak, hogy az AI- agents automatikus támadási láncokat tudnak majd létrehozni. Egy korábbi esetben például egy állami hátterű csoport manipulálta a Claude rendszert, és a modell 30 globális célpont ellen végzett felderítési és támadási műveleteket, a műveletek nagy részét autonóm módon hajtva végre.

FORRÁS