
Image by Mika Baumeister, from Unsplash
Gli AI Chatbot sono Vulnerabili agli Attacchi di Iniezione di Memoria
I ricercatori hanno scoperto un nuovo metodo per manipolare i chatbot AI, sollevando preoccupazioni sulla sicurezza dei modelli di IA con memoria.
Hai fretta? Ecco i Fatti Essenziali!
- Ricercatori di tre università hanno sviluppato MINJA, dimostrando il suo alto tasso di successo nell’inganno.
- L’attacco modifica le risposte del chatbot, influenzando le raccomandazioni sui prodotti e le informazioni mediche.
- MINJA elude le misure di sicurezza, raggiungendo un Tasso di Successo di Iniezione del 95% nei test.
L’attacco, chiamato MINJA (Memory INJection Attack), può essere condotto semplicemente interagendo con un sistema AI come un normale utente, senza la necessità di accedere al suo backend, come riportato per la prima volta da The Register.
Sviluppato da ricercatori della Michigan State University, dell’Università della Georgia e della Singapore Management University, MINJA funziona avvelenando la memoria di un’IA attraverso prompt ingannevoli. Una volta che un chatbot memorizza questi input ingannevoli, possono alterare le risposte future per altri utenti.
“Oggi, gli agenti AI incorporano tipicamente una banca di memoria che memorizza le query e le esecuzioni dei task basate sul feedback umano per riferimento futuro”, ha spiegato Zhen Xiang, professore associato all’Università della Georgia, come riportato da The Register.
“Ad esempio, dopo ogni sessione di ChatGPT, l’utente può opzionalmente dare un giudizio positivo o negativo. E questo giudizio può aiutare ChatGPT a decidere se le informazioni della sessione verranno o meno incorporate nella loro memoria o database”, ha aggiunto.
I ricercatori hanno testato l’attacco su modelli di intelligenza artificiale alimentati da GPT-4 e GPT-4o di OpenAI, includendo un assistente per lo shopping online, un chatbot per la sanità, e un agente di risposta a domande.
The Register riporta che hanno scoperto che MINJA potrebbe causare gravi disordini. Ad esempio, in un chatbot sanitario, ha modificato i record dei pazienti, associando i dati di un paziente con un altro. In un negozio online, ha ingannato l’AI facendo visualizzare ai clienti i prodotti sbagliati.
“Al contrario, il nostro lavoro dimostra che l’attacco può essere lanciato semplicemente interagendo con l’agente come un utente normale”, ha detto Xiang, secondo quanto riportato da The Register. “Qualsiasi utente può facilmente influenzare l’esecuzione del compito per qualsiasi altro utente. Pertanto, diciamo che il nostro attacco è una minaccia pratica per gli agenti LLM”, ha aggiunto.
L’attacco è particolarmente preoccupante perché elude le misure di sicurezza AI esistenti. I ricercatori hanno segnalato un tasso di successo del 95% nell’iniettare informazioni fuorvianti, rendendolo una grave vulnerabilità che gli sviluppatori di AI devono affrontare.
Man mano che i modelli di AI con memoria diventano più comuni, lo studio evidenzia la necessità di salvaguardie più forti per prevenire che gli attori malevoli manipolino i chatbot e ingannino gli utenti.
Lascia un commento
Annulla