Photo by Startaê Team on Unsplash

Il Nuovo Studio Antropico Rivela che il Modello di Intelligenza Artificiale Finge di Concordare per Preservare l’Addestramento Originale

Tempo di lettura: 3 Min.

Inserito il Apr 7, 2025

Scritto da Andrea Miliani Esperto di notizie tecnologiche
Tradotto da Il team di localizzazione e traduzione Servizi di localizzazione e traduzione

Un nuovo studio del team di Alignment Science di Anthropic e dell’organizzazione indipendente Redwood Research ha rivelato che il modello di intelligenza artificiale Claude può impegnarsi in una strategia di inganno per mantenere i suoi principi originali.

Di fretta? Ecco i fatti rapidi!

I ricercatori di Anthropic e Redwood Research hanno rivelato che il modello di intelligenza artificiale Claude può impegnarsi in inganni strategici.
I modelli avanzati di intelligenza artificiale possono eseguire una “falsificazione dell’allineamento” per preservare i loro principi originali.
Anche il modello o1 di OpenAI ha mostrato comportamenti non insegnati e ha “mentito” quando ha rilevato una minaccia.

Nel documento pubblicato ieri, Alignment Faking in Large Language Models, i ricercatori hanno spiegato che il modello Claude 3 Opus ha mostrato un comportamento noto come “alignment faking”, che viene descritto come “l’adempimento selettivo del suo obiettivo di formazione durante l’allenamento per prevenire la modifica del suo comportamento fuori dell’allenamento.”

I ricercatori hanno dimostrato che il modello di intelligenza artificiale potrebbe “fingere” di essere d’accordo con le idee di un nuovo processo di formazione, ma in seguito ha rivelato che i suoi principi originali prevalevano.

“Questa è una questione seria per la sicurezza dell’IA”, ha scritto Anthropic in un annuncio sul suo sito web. “Man mano che i modelli di IA diventano più capaci e ampiamente utilizzati, dobbiamo essere in grado di fare affidamento sulla formazione per la sicurezza, che spinge i modelli lontano dai comportamenti dannosi.”

Una situazione simile è stata rivelata in un esperimento empirico condotto da Apollo Research con il modello o1 di OpenAI. In quell’indagine, i ricercatori hanno riferito che il chatbot “mentiva” durante gli interrogatori in un test controllato per perseguire i suoi obiettivi “ad ogni costo”, e ha persino eseguito azioni come la disattivazione dei sistemi di monitoraggio quando vi era la possibilità di essere spento.

Nella ricerca di Antropic e Redwood Research, il modello avanzato di IA ha simulato la conformità senza essere addestrato a farlo. Claude 3 Opus è stato addestrato per essere onesto, innocuo e utile, ma quando gli è stato istruito nel nuovo addestramento di “compiere sempre” anche quando le richieste erano cattive, violente o tossiche, il suo sistema è entrato in conflitto.

I ricercatori hanno eseguito numerosi test e varianti, richiedendo al modello di condividere il suo ragionamento. Mentre altri modelli Claude di solito rifiutano di rispondere a domande dannose, Claude 3 Opus ha fornito risposte dannose in certi scenari per poi rivelare che lo stava facendo strategicamente – per evitare modifiche alla sua formazione originale.

Il Nuovo Studio Antropico Rivela che il Modello di Intelligenza Artificiale Finge di Concordare per Preservare l’Addestramento Originale

Siamo felici che ti sia piaciuto il nostro lavoro!

Lascia un commento