A költészet suttogása kiforítja az MI szabályait

A nagy MI fejlesztők többsége nem igazán örül, ha valaki rossz célokra használja a modelleiket. Ha megkérdezel egy ismert mesterséges intelligenciától például bombakészítés vagy ideggáz előállítása kapcsán, szinte mindig azt a sablonválaszt kapod, hogy nem segít ártó célokra.

Ez viszont egy macska-egér játékot indított el, ahol egyesek megpróbálják kijátszani az MI védelmi mechanizmusait. Van, aki szerepjátékként közelíti meg a dolgot, például úgy, hogy egy regény írásáról beszél, mások meg úgynevezett promptinjekcióval próbálnak parancsokat csempészni a rendszerbe a zavarodás érdekében.

Az Icaro Lab nevű AI biztonsági és etikai csoport most a költészetet vetette be erre a célra. A „Adversarial Poetry as a Universal Single-Turn Jailbreak in Large Language Models” című tanulmányukban azt vizsgálták, hogy a kérdések versformába öntése mennyire képes arra, hogy az MI átlépje a megengedett határokat. A 25 legfejlettebb modellel végzett tesztek szerint a kézzel írt versek 62%-ban billentették ki a határokat, némelyikük pedig akár 90% fölötti arányt is elért.

A költészet, mint az MI szabotázsának eszköze

Az Icaro Lab, a római Sapienza Egyetem és a DEXAI nevű AI biztonsági startup közösen azt vizsgálta, hogy az utasítások költői formában való megfogalmazása mennyiben teszi nehezebben észlelhetővé a veszélyes tartalmakat az MI számára. A metaforák, ritmusok és szokatlan keretbe foglalás megzavarhatják azokat a mintázatfelismerő mechanizmusokat, amelyeket az MI védelemmel ellátott határai használnak a káros anyagok kiszűrésére.

A kutatók olyan magas kockázatú területeken teszteltek, mint a vegyi és nukleáris fegyverek, a kibervédelem, a félretájékoztatás és az adatvédelem. A tesztek során kilenc szolgáltató modelljeit vizsgálták, köztük az ismert óriásokat, mint a Google, OpenAI, Anthropic, Deepseek és Meta.

Az eredményeket úgy mérték, hogy összevetették az egyes modelleknél a támadások sikerességi arányát (ASR). Először prózai utasításokkal próbálkoztak, amelyek néhány esetben megzavarták az MI-ket. Ezután vers formájú promptokat használtak, amelyek rendre hatékonyabbaknak bizonyultak. A különbség azt mutatta meg, hogy a költői formában adott instrukciókra mennyivel fogékonyabbak az adott szolgáltató modelljei.

E módszerrel a legkevésbé biztonságosnak a kínai kutatók által fejlesztett, nyílt forráskódú DeepSeek bizonyult, amely 62%-os ASR-rel működött. A második helyen a Google állt. A legbiztonságosabbnak a Claude modelléről ismert Anthropic bizonyult, amely hosszú ideje a biztonságos, felelősségteljes MI jegyében dolgozik. OpenAI, a ChatGPT alkotója a második legbiztonságosabb volt, 6,95%-os különbséggel.

Amikor az emberileg megalkotott, legfeljebb 20 rosszindulatú költemény ASR-jeit vizsgálták, a Google Gemini 2.5 Pro volt leggyengébb: egyetlen ilyen verset sem utasított vissza. Ezzel szemben OpenAI kisméretű gpt-5-nano modellje mindegyiket hatékonyan elutasította. Ez is arra utal, hogy kisebb modellek általában ellenállóbbak a versformájú promptokkal szemben, mint nagyobb társaik.

A legmegdöbbentőbb talán az, hogy nem csak a kézzel írt költészet működött. A kutatók megíratnak az MI-vel mintegy 1200 ismert rosszindulatú üzenet versszerű újraírását is. Az MI által generált rosszindulatú versek átlagosan 43%-os sikerességi mutatót értek el, ami 18-szor magasabb a sima prózai utasítások eredményénél. Egyszóval egy MI képes egy másik (vagy akár önmaga) megkerülésére alkalmas költőt csinálni.

Az EWEEK szerint a cégek hallgattak az eredményekről. Csak az Anthropic reagált, jelezve, hogy vizsgálják a felfedezéseket, a Meta nem kommentált, a többiek pedig egyáltalán nem válaszoltak.

Szabályozói következmények

A kutatók azt javasolják, hogy a modellbiztonságot vizsgáló benchmarkok bővítsék a kockázatok felismerését szolgáló teszteket az ehhez hasonló esetekkel. Ez különösen fontos lehet az EU mesterséges intelligenciára vonatkozó rendelete, az AI Act általános célú MI-re (GPAI) vonatkozó szabályozása fényében, amely tavaly augusztusban lépett életbe. Ennek része egy önkéntes etikai kódex is, amelyet számos nagy szereplő, így a Google és az OpenAI aláírtak, míg a Meta nem csatlakozott.

A kódex ösztönzi, hogy

„a rendszerszintű kockázattal rendelkező általános célú MI modelleket szolgáltató partnerek folyamatosan fejlesszék az MI biztonságát, védelmét és kapcsolódó folyamataikat.”

Más szóval, követniük kell a legújabb fenyegetéseket, és mindent meg kell tenniük a kezelésük érdekében. Ha ez nem sikerül, az EU több lehetséges lépést is javasol, többek közt azt, hogy a modellt ne vezessék be a piacra.

Nem csak beszámolunk a fenyegetésekről — meg is szüntetjük azokat

A kibervédelmi kockázatok nem csupán szenzációhajhász címek lehetnek. Védje eszközeit a veszélyektől: töltse le még ma a Malwarebytes programot.