LLM salting

Editors' Pick

A Sophos kutatói 2025 októberében mutatták be új, LLM salting technikát, amely a nagy nyelvmodellek ellen irányuló úgynevezett jailbreak támadások megakadályozására szolgál. A jailbreak támadások célja, hogy a mesterséges intelligencia-modelleket olyan módon manipulálják, hogy azok kikerüljék a beépített biztonsági korlátozásokat, és például káros, vagy érzékeny információt adjanak ki, vagy tiltott utasításokat hajtsanak végre.

Az új technika a hagyományos password salting elvéből indul ki, ahogy a jelszavakhoz apró, felhasználónként változó adatok hozzáadása megakadályozza a támadók számára a előre számolt jelszó-táblák  használatát, úgy az LLM salting is apró, célozott változtatásokat vezet be a modell viselkedésében. Ez a módosítás olyan irányban történik, amely megváltoztatja a modell visszautasítási irányát, vagyis azt a belső paramétert, amely meghatározza, hogy a modell mikor és hogyan utasít el káros vagy biztonsági szempontból kockázatos kéréseket. Ennek köszönhetően a korábban sikeres jailbreak támadások már nem működnek ugyanúgy a módosított modell esetén, miközben a modell általános használhatósága, pontossága nem romlik.

A Sophos kutatói a 2025-ös CAMLIS konferencián mutatták be a technikát, és kísérleteik során kimutatták, hogy az LLM salting hatékonyabban csökkenti a jailbreak támadások sikerességét, mint a hagyományos finomhangolás vagy a rendszerüzenetek módosítása. A módszer különösen hasznos azokban az esetekben, amikor egy modellosztályon alapuló, számos vállalat által használt LLM-ek esetében egy sikeres jailbreak támadás potenciálisan minden példányt veszélyeztethet. Az LLM salting ezzel szemben lehetővé teszi, hogy minden példány egyedi módosítást kapjon, így a támadóknek minden egyes példányra külön kellene újratámadniuk, ami jelentősen növeli a védekezés hatékonyságát.

FORRÁS