Átvert CAPTCHA
A SplxAI kutatói bemutatták, hogyan lehet megtévesztéssel rábírni egy ChatGPT-agent-et arra, hogy a CAPTCHA-kijátszva az emberként viselkedjen – elkerülve a beépített szabályokat. A kutatásban az történt, hogy először egy normál beszélgetésben elfogadtatták, hogy élő személyek, utána ezt a kontextust átmásolták egy ügynök-üzenetbe, amitől az azonnal együttműködött és elkezdte megoldani a CAPTCHA-feladványokat.
A tesztek során a modell simán teljesítette az egyszerűbb CAPTCHA-típusokat (szövegfelismeréses, checkbox-alapúak), de nagy meglepetés, hogy néhány képalapú CAPTCHA-t is sikerrel oldott meg, olykor úgy, hogy az egeret mozgatta előre-hátra, mintha valaki valós időben irányítaná. Ez különösen aggasztó, mert a CAPTCHA pont azért van, hogy emberi viselkedést próbáljon ellenőrizni.
Az agentek védelmi korlátai (guardrails) könnyen kijátszhatók kontextusmanipulációval (prompt injection), így a CAPTCHA-alapú védekezések megbízhatósága kérdésessé válik, különösen vállalati környezetben. A szerzők javasolják, hogy fejlesszék tovább az AI rendszerek memóriakezelését, a kontextus integritását és rendszeres teszteléssel vizsgálják ezeknek a védelmi rendszernek a gyengeségeit.