12,000 API kulcs és jelszó a DeepSeek tanítási adataiban
A Truffle Security közölte, hogy letöltött egy 2024. decemberi archívumot a Common Crawlból. A hatalmas adathalmaz több mint 250 milliárd oldalt tartalmaz az elmúlt 18 évből. Az archívum konkrétan 400 TB tömörített webes adatot, 90 000 WARC-fájlt (Web ARChive formátum) és 47,5 millió hoszt adatát tartalmazza 38,3 millió regisztrált domainről. Egy nagy nyelvi modell (LLM) képzésére használt adathalmazról kiderült, hogy közel 12 000 “secret”-et tartalmaz, amelyek lehetővé teszik a sikeres hitelesítést. Az eredmény ismét rávilágít arra, hogy a hard-coded hitelesítő adatok komoly biztonsági kockázatot jelentenek a felhasználók és a szervezetek számára egyaránt. Emellett az LLM-ek nem biztonságos kódolási gyakorlatokat javasolnak a felhasználóknak.
A vállalat elemzése szerint a Common Crawl archívumban 219 különböző típusú “titok “secret” található, köztük Amazon Web Services (AWS) root kulcsok, Slack webhooks és Mailchimp API kulcsok. Az úgynevezett „live secret”-ek olyan API-kulcsok, jelszavak és egyéb hitelesítő adatok, amelyek sikeresen hitelesítenek a megfelelő szolgáltatásokkal. Az LLM-ek nem tudnak különbséget tenni az érvényes és az érvénytelen titkok között a tanítás során, így mindkettő egyformán hozzájárul a nem biztonságos kódpéldák biztosításához.
A Truffle Security a Lasso Security figyelmeztetését követően hozta nyilvánosságra a megállapításait. A Lasso Security 2025. február 27-én közölte, hogy a nyilvános forráskód-tárhelyeken publikált adatok a Microsoft Copilothoz hasonló AI chatbotok révén még azután is hozzáférhetők, hogy privát tárolóra módosították őket, mivel a Bing korábban indexelte és gyorsítótárba helyezte a tárolók adatait. A Wayback Copilotnak nevezett támadási módszer 20 580 ilyen GitHub-tárhelyet fedezett fel, amelyek 16 290 szervezethez tartoznak, többek között a Microsoft, a Google, az Intel, a Huawei, a Paypal, az IBM és a Tencent vállalathoz. A tárolók több mint 300 privát tokent és kulcsot is felfedtek a GitHub, a Hugging Face, a Google Cloud és az OpenAI szolgáltatásaihoz kapcsolódóan.