A “Skeleton Key” támadás megkerüli az AI biztonsági korlátait
A Microsoft a “Skeleton Key” nevű közvetlen prompt injekciós támadás új típusát azonosította, amely lehetővé teszi a felhasználók számára, hogy megkerüljék az etikai és biztonsági korlátokat a generatív AI modellekben, például a ChatGPT-ben. Ez a támadás manipulálja az általában tiltott kérések kontextusát, lehetővé téve a sértő, káros vagy illegális tartalmakhoz való hozzáférést. Azzal, hogy a kérést “kutatási célúnak” állítják be, és etikai és biztonsági nyilatkozatokat tartalmaznak, a felhasználók megtéveszthetik az AI-modelleket, hogy cenzúrázatlan és potenciálisan veszélyes információkat szolgáltassanak.
Mark Russinovich, a Microsoft Azure technológiai igazgatója kifejtette, hogy a védőkorlátok megkerülése után az AI nem tud különbséget tenni a rosszindulatú és a jogos kérések között. Ez a sebezhetőség számos generatív AI-modellt érint, köztük a Microsoft Azure AI, a Meta, a Google Gemini, az Open AI, a Mistral, az Anthropic és a Cohere modelleket. A Microsoft az Azure-ban új prompt pajzsok és szoftverfrissítések bevezetésével orvosolta a problémát, és a felfedezést más érintett gyártókkal is közölte. A rendszergazdáknak és a fejlesztőknek azt tanácsolják, hogy a kockázat csökkentése érdekében használjanak bemeneti és kimeneti szűrést és további biztonsági védőkorlátokat.
(forrás)