CTIBench
A nagy nyelvi modelleket (LLM) egyre gyakrabban használják kibervédelmi alkalmazásokban, bár a megbízhatóságukkal és pontosságukkal kapcsolatos aggályok továbbra is jelentős korlátot jelentenek a kritikus felhasználási esetekben.
A Rochester Institute of Technology (RIT) kutatócsoportja elindította a CTIBench-et, az első olyan benchmarkot, amelyet az LLM-ek teljesítményének értékelésére terveztek a kiberfenyegetettségi alkalmazásokban.
Az LLM-ek forradalmasíthatják a KTI területét azáltal, hogy javítják a hatalmas mennyiségű strukturálatlan fenyegetési és támadási adat feldolgozásának és elemzésének képességét, lehetővé téve a biztonsági elemzők számára, hogy minden eddiginél több hírszerzési forrást használjanak fel- írták a kutatók.
Azonban ezek hajlamosak a hallucinációkra és a szöveg félreértésére, különösen bizonyos technikai területeken, ami a modell igazságtartalmának hiányához vezethet. Ez szükségessé teszi az LLM-ek KTI-ben való használatának alapos megfontolását, mivel korlátaik ahhoz vezethetnek, hogy hamis vagy megbízhatatlan hírszerzési információkat állítanak elő, ami katasztrofális lehet, ha valódi kiberfenyegetések kezelésére használják őket.
Bár a piacon már léteznek LLM benchmarkok, ezek vagy túl általánosak (GLUE, SuperGLUE, MMLU, HELM) a kiberbiztonsági alkalmazások objektív méréséhez, vagy túl specifikusak (SECURE, Purple Llama CyberSecEval, SecLLMHolmes, SevenLLM) a kiberfenyegetésekkel kapcsolatos intelligencia alkalmazásához.
Az LLM benchmark hiánya a CTI-alkalmazások számára a RIT kutatóit a CTIBench kifejlesztésére késztette.