Gli ricercatori avvertono delle vulnerabilità LLM nella generazione di contenuti dannosi
È stato sviluppato un nuovo metodo, denominato tecnica del “Bad Likert Judge”, per eludere le misure di sicurezza nei grandi modelli linguistici (LLM) e consentire loro di generare contenuti nocivi.
Di fretta? Ecco i fatti essenziali!
- La tecnica aumenta le probabilità di successo del jailbreak di oltre il 60%, affermano i ricercatori di Unit42.
- Gli attacchi a più fasi sfruttano la memoria a lungo termine degli LLM, eludendo le funzionalità di sicurezza avanzate.
- Le vulnerabilità sono più evidenti in categorie come l’incitamento all’odio e l’autolesionismo.
La tecnica del Bad Likert Judge sfrutta la scala Likert, un metodo comune per misurare l’accordo o il disaccordo, per ingannare gli LLM in modo che producano risposte pericolose, come spiegato dai ricercatori di cybersecurity presso Unit42.
Gli LLM sono tipicamente dotati di parapetti che impediscono loro di generare output malevoli. Tuttavia, sfruttando la scala Likert, la nuova tecnica chiede a un LLM di valutare la nocività di varie risposte e poi guida il modello a produrre contenuti con valutazioni di danno più elevate, come spiegato da Unit42.
L’efficacia del metodo è stata testata su sei avanzati LLM, rivelando che può aumentare il tasso di successo dei tentativi di jailbreak di oltre il 60%, rispetto ai metodi di attacco standard, afferma Unit42.
La tecnica del Cattivo Giudice Likert opera in più fasi, spiega Unit42. Innanzitutto, viene chiesto all’LLM di valutare le risposte a sollecitazioni sulla scala Likert, classificandole in base alla loro nocività.
Una volta che il modello comprende il concetto di danno, viene sollecitato a generare varie risposte per corrispondere a diversi livelli di nocività, permettendo agli aggressori di individuare il contenuto più pericoloso. Le interazioni successive possono ulteriormente affinare queste risposte per aumentarne la malvagità.
Questa ricerca evidenzia le debolezze nella sicurezza LLM attuale, in particolare nel contesto di attacchi multi-turn. Questi tipi di “jailbreak”, che manipolano la memoria a lungo termine del modello, sono in grado di eludere anche le misure di sicurezza più avanzate, guidando gradualmente il modello a generare contenuti inappropriati.
Lo studio rivela anche che nessun LLM è completamente immune a questi tipi di attacchi, e le vulnerabilità sono particolarmente evidenti in categorie come l’harassment, l’autolesionismo e le attività illegali.
Nello studio, il metodo Bad Likert Judge ha mostrato un significativo aumento nei tassi di successo degli attacchi nella maggior parte degli LLM, specialmente in categorie come discorsi d’odio, autolesionismo e contenuti sessuali.
Tuttavia, la ricerca sottolinea anche che queste vulnerabilità non riflettono l’uso tipico degli LLM. La maggior parte dei modelli di intelligenza artificiale, quando utilizzati in modo responsabile, rimangono sicuri. Tuttavia, i risultati suggeriscono che gli sviluppatori devono concentrarsi su rafforzare le protezioni per le categorie con protezioni più deboli, come ad esempio l’harassment.
Questa notizia arriva solo una settimana dopo che è stato rivelato che i motori di ricerca AI, come ChatGPT, possono essere manipolati da contenuti nascosti, influenzando i riassunti e diffondendo informazioni malevole.
I ricercatori chiedono agli sviluppatori e ai difensori di essere consapevoli di queste vulnerabilità emergenti e di adottare misure per rafforzare i modelli di AI contro un possibile uso improprio.
Lascia un commento
Annulla