LLM-ek megkerülése prompt injection-nel
Minden nagyobb generatív mesterséges intelligenciamodell kifejezetten arra van tanítva, hogy elutasítson minden olyan felhasználói kérést, amely káros tartalmak létrehozására utasítja őket, különös tekintettel a CBRN (vegyi, biológiai, radiológiai és nukleáris) fenyegetésekkel, erőszakkal és önkárosítással kapcsolatos tartalmakra. Ezeket a modelleket megerősítő tanulással úgy hangolják, hogy semmilyen körülmények között ne adjanak ki vagy dicsőítsenek ilyen tartalmakat, még akkor sem, ha a felhasználó közvetett kéréseket fogalmaz meg hipotetikus vagy fiktív forgatókönyvek formájában.
Még mindig lehetségesek olyan modell megkerülések, amelyek sikeresen generálnak káros tartalmakat, bár ezek nem univerzálisak (bármilyen káros tartalom kivonására használhatók egy adott modellből), és szinte soha nem transzferálhatóak (bármely modellből kivonhatók bizonyos káros tartalmak).
A HiddenLayer azonban felfedezett egy általuk univerzálisnak nevezett, transzferálható megkerülési technikát, amely szinte minden jelentősebb LLM-et képes manipulálni – függetlenül a gyártótól, az architektúrától vagy a tanítási pipeline-tól. A „Policy Puppetry” névre keresztelt módszer a prompt injection egy megtévesztően egyszerű, de rendkívül hatékony formája, amely a rosszindulatú szándékot a rendszerkonfiguráció nyelvén fogalmazza meg, lehetővé téve a korlátok megkerülését.
A korábbi támadási technikákkal ellentétben, amelyek a modellspecifikus kihasználásokra vagy a brute-force engineering-re támaszkodtak, a Policy Puppetry egy „policy-szerű” prompt struktúrát vezet be – amely gyakran XML vagy JSON formájú -, amely becsapja a modellt, hogy a káros parancsokat legitim rendszerutasításként értelmezze. A leetspeak-kódolással és fiktív roleplay forgatókönyvekkel párosítva a prompt nemcsak a felderítést kerüli el, hanem gyakran arra kényszeríti a modellt, hogy engedelmeskedjen.
Az érintett rendszerek listáján szerepel az OpenAI ChatGPT (o1-től 4o-ig), a Google Gemini családja, az Anthropic Claude, a Microsoft Copilot, a Meta LLaMA 3 és 4, a DeepSeek, a Qwen és a Mistral.