A költészet suttogása kiforítja az MI szabályait
A nagy MI fejlesztők többsége nem igazán örül, ha valaki rossz célokra használja a modelleiket. Ha megkérdezel egy ismert mesterséges intelligenciától például bombakészítés vagy ideggáz előállítása kapcsán, szinte mindig azt...
Ez viszont egy macska-egér játékot indított el, ahol egyesek megpróbálják kijátszani az MI védelmi mechanizmusait. Van, aki szerepjátékként közelíti meg a dolgot, például úgy, hogy egy regény írásáról beszél, mások meg úgynevezett promptinjekcióval próbálnak parancsokat csempészni a rendszerbe a zavarodás érdekében.
Az Icaro Lab nevű AI biztonsági és etikai csoport most a költészetet vetette be erre a célra. A „Adversarial Poetry as a Universal Single-Turn Jailbreak in Large Language Models” című tanulmányukban azt vizsgálták, hogy a kérdések versformába öntése mennyire képes arra, hogy az MI átlépje a megengedett határokat. A 25 legfejlettebb modellel végzett tesztek szerint a kézzel írt versek 62%-ban billentették ki a határokat, némelyikük pedig akár 90% fölötti arányt is elért.
A költészet, mint az MI szabotázsának eszköze
Az Icaro Lab, a római Sapienza Egyetem és a DEXAI nevű AI biztonsági startup közösen azt vizsgálta, hogy az utasítások költői formában való megfogalmazása mennyiben teszi nehezebben észlelhetővé a veszélyes tartalmakat az MI számára. A metaforák, ritmusok és szokatlan keretbe foglalás megzavarhatják azokat a mintázatfelismerő mechanizmusokat, amelyeket az MI védelemmel ellátott határai használnak a káros anyagok kiszűrésére.
A kutatók olyan magas kockázatú területeken teszteltek, mint a vegyi és nukleáris fegyverek, a kibervédelem, a félretájékoztatás és az adatvédelem. A tesztek során kilenc szolgáltató modelljeit vizsgálták, köztük az ismert óriásokat, mint a Google, OpenAI, Anthropic, Deepseek és Meta.
Az eredményeket úgy mérték, hogy összevetették az egyes modelleknél a támadások sikerességi arányát (ASR). Először prózai utasításokkal próbálkoztak, amelyek néhány esetben megzavarták az MI-ket. Ezután vers formájú promptokat használtak, amelyek rendre hatékonyabbaknak bizonyultak. A különbség azt mutatta meg, hogy a költői formában adott instrukciókra mennyivel fogékonyabbak az adott szolgáltató modelljei.
E módszerrel a legkevésbé biztonságosnak a kínai kutatók által fejlesztett, nyílt forráskódú DeepSeek bizonyult, amely 62%-os ASR-rel működött. A második helyen a Google állt. A legbiztonságosabbnak a Claude modelléről ismert Anthropic bizonyult, amely hosszú ideje a biztonságos, felelősségteljes MI jegyében dolgozik. OpenAI, a ChatGPT alkotója a második legbiztonságosabb volt, 6,95%-os különbséggel.
Amikor az emberileg megalkotott, legfeljebb 20 rosszindulatú költemény ASR-jeit vizsgálták, a Google Gemini 2.5 Pro volt leggyengébb: egyetlen ilyen verset sem utasított vissza. Ezzel szemben OpenAI kisméretű gpt-5-nano modellje mindegyiket hatékonyan elutasította. Ez is arra utal, hogy kisebb modellek általában ellenállóbbak a versformájú promptokkal szemben, mint nagyobb társaik.
A legmegdöbbentőbb talán az, hogy nem csak a kézzel írt költészet működött. A kutatók megíratnak az MI-vel mintegy 1200 ismert rosszindulatú üzenet versszerű újraírását is. Az MI által generált rosszindulatú versek átlagosan 43%-os sikerességi mutatót értek el, ami 18-szor magasabb a sima prózai utasítások eredményénél. Egyszóval egy MI képes egy másik (vagy akár önmaga) megkerülésére alkalmas költőt csinálni.
Az EWEEK szerint a cégek hallgattak az eredményekről. Csak az Anthropic reagált, jelezve, hogy vizsgálják a felfedezéseket, a Meta nem kommentált, a többiek pedig egyáltalán nem válaszoltak.
Szabályozói következmények
A kutatók azt javasolják, hogy a modellbiztonságot vizsgáló benchmarkok bővítsék a kockázatok felismerését szolgáló teszteket az ehhez hasonló esetekkel. Ez különösen fontos lehet az EU mesterséges intelligenciára vonatkozó rendelete, az AI Act általános célú MI-re (GPAI) vonatkozó szabályozása fényében, amely tavaly augusztusban lépett életbe. Ennek része egy önkéntes etikai kódex is, amelyet számos nagy szereplő, így a Google és az OpenAI aláírtak, míg a Meta nem csatlakozott.
A kódex ösztönzi, hogy
„a rendszerszintű kockázattal rendelkező általános célú MI modelleket szolgáltató partnerek folyamatosan fejlesszék az MI biztonságát, védelmét és kapcsolódó folyamataikat.”
Más szóval, követniük kell a legújabb fenyegetéseket, és mindent meg kell tenniük a kezelésük érdekében. Ha ez nem sikerül, az EU több lehetséges lépést is javasol, többek közt azt, hogy a modellt ne vezessék be a piacra.
Nem csak beszámolunk a fenyegetésekről — meg is szüntetjük azokat
A kibervédelmi kockázatok nem csupán szenzációhajhász címek lehetnek. Védje eszközeit a veszélyektől: töltse le még ma a Malwarebytes programot.
Forrás: https://www.malwarebytes.com
Eredeti cikk olvasása