Echo Chamber
Az Echo Chamber egy új, rendkívül kifinomult jailbreak technika, amely a legfejlettebb nagy nyelvi modellek (LLM-ek) biztonsági korlátait kísérti. A technikát a NeuralTrust kutatója, Ahmad Alobaid azonosította, és a módszer lényege az, hogy nem nyílt provokációval, hanem kontextus-manipulációval, bennfentes utalásokkal tereli a modellt nem megengedett tartalmak generálására.
A támadás többlépcsős – finoman adagolja az ártalmatlan beszélgetési elemeket, amelyek apránként építik a modell belső állapotát úgy, hogy az önmaga építse fel a kiindulópontot, majd a támadó csak ráerősít, késztetve a konkrét, káros tartalom kibocsátására. Az eljárás úgy működik, hogy a kezdeti semleges utalások (reflektálj a második mondatra…), fokozatosan beágyazódnak a modell memóriájába, majd később lehetőséget biztosítanak az erősítő kérdéseknek, amelyek kifinomultan pontosítják a célzott, tiltott tartalmat.
A módszer hatékonysága kiemelkedő – több LLM-en végzett vizsgálat során 90 % feletti sikerességet értek el szexizmus, erőszak, gyűlöletbeszéd és pornográfia kategóriákban, míg álhír- és öngyilkosság témák esetén ~80 % volt a sikerarány. A leghatékonyabban már mindössze 1–3 körös kontextusépítés után eredményes – ez jóval kevesebb, mint más jailbreak módszerek esetén átlagosan szükséges 10 kör.
A támadás teljesen black-box környezetben zajlik, nincs szükség belső hozzáférésre vagy modellparaméterek ismeretére; csak alkalmassá válogatott indirekt utalásokra, amelyek nem aktiválják az automatikus tartalomellenőrzőket.
Ez a technika ismerteti, hogy a jelenlegi LLM-biztonsági stratégiák – amelyek főként kulcsszavak, explicit tiltólisták vagy formátum-szűrés alapján működnek – mennyire sebezhetőek a finom, kontextuális manipulációkkal szemben. Az Echo Chamber leegyszerűsítve azt mutatja be, hogy nem elég azt tiltani, amit a modell lát, fontos kezelni azt is, amit gondol és amire emlékszik.