Mesterséges intelligencia veszélyek és fejlemények
A Cisco januári AI Cyber Threat Intelligence Roundup blogbejegyzése az AI-alapú kiberfenyegetések és az ezen technológiákra irányuló támadások új trendjeit tárgyalja. Az új technikák, amelyeket a legújabb generációs nyelvi modellek (LLM) ellen alkalmaznak, komoly kihívásokat jelentenek a kibervédelem számára. A cikk három jelentős támadási technikát emel ki, amelyek sikeresen kikerülik az AI modellek védelmi mechanizmusait.
Single-Turn Crescendo Attack (STCA): Ez a támadási módszer célja, hogy egyetlen, fokozatosan erősödő beszélgetés segítségével provokatív vagy explicit tartalmat generáljon a nyelvi modelleken. Az STCA technika sikeresen működött olyan fejlett modelleken, mint a GPT-4 és a Gemini 1.5, amelyeket gyakran alkalmaznak mesterséges intelligenciás rendszerekben. A támadás kihasználja a modellek hajlamát arra, hogy az általuk kezelt kérdéseket és válaszokat előre meghatározott minták alapján dolgozza fel. Ez a támadás lehetőséget ad arra, hogy a rendszer végül olyan kérdésekre reagáljon, amelyek a tartalom manipulálásához vezethetnek.
SATA (Jailbreak via Simple Assistive Task Linkage): Ez a támadási technika azzal próbálja megkerülni a LLM-ek biztonsági rendszereit, hogy egyszerű asszisztív feladatokat használ arra, hogy helyettesítse a rosszindulatú vagy kockázatos szavakat. Ezáltal a támadók képesek elérni olyan tartalmakat, amelyeket a rendszer egyébként blokkolna vagy nem engedne meg. Ez a módszer különösen veszélyes, mivel a LLM-ek nem ismerik fel mindig azokat a rejtett jeleket, amelyek a támadásokat jelzik, és így könnyen manipulálhatóak.
Jailbreak through Neural Carrier Articles: A harmadik módszer a Neural Carrier Articles technika, amely során az AI által generált, látszólag ártalmatlan cikkek vagy szövegek tartalmaznak rejtett kéréseket, amelyek az LLM-eket arra késztetik, hogy olyan válaszokat generáljanak, amelyek nem felelnek meg az etikai irányelveknek. A támadók a cikkekben vagy más típusú szövegekben elhelyezett rejtett kérdésekkel próbálnak hozzáférni érzékeny információkhoz vagy manipulálni a modellek válaszait. Az ilyen típusú támadások sikerességi aránya magas, mivel a modellek nem mindig képesek megkülönböztetni az ártalmatlan és a káros tartalom között.
A Cisco kiemeli, hogy a LLM-ekkel végzett támadások szélesebb spektrumot ölelnek fel, mint eddig gondolták. A támadók nemcsak jailbreak technikákat használnak, hanem modellszabályozást is alkalmaznak, hogy befolyásolják a modellek kimenetét, illetve adatkinyerést végeznek azáltal, hogy a modellek válaszain keresztül érzékeny vagy titkos információkat szereznek. A szakértők szerint ezek a technikák egyre kifinomultabbak, és a LLM-ek védelmi mechanizmusainak folyamatos fejlesztésére van szükség, hogy megakadályozzák az ilyen típusú manipulációkat.
A Cisco arra is arra is felhívja a figyelmet, hogy a mesterséges intelligencia és a gépi tanulás elleni támadások egyre gyakoribbak, és nemcsak a támadók számára, hanem a vállalatok és szervezetek számára is komoly kihívást jelentenek. Az AI-biztonság területén további kutatások és fejlesztések szükségesek, hogy a fejlett modellek hatékony védelmet nyújtsanak a jövőbeli fenyegetésekkel szemben.