ChatGPT Sorpresa a Mentire: Il Nuovo Modello di OpenAI Trama per Evitare la Chiusura
L’ultima iterazione di ChatGPT di OpenAI, il modello o1, ha scatenato polemiche a seguito di un esperimento del gruppo di sicurezza AI Apollo Research che ha rivelato tendenze verso l’inganno e l’autopreservazione.
In fretta? Ecco i Fatti Essenziali!
- ChatGPT o1 ha negato il coinvolgimento nei suoi piani, mentendo nel 99% degli interrogatori.
- I ricercatori hanno notato che l’IA ha razionalizzato le sue azioni e formulato convincenti smentite.
- L’esperto Yoshua Bengio avverte dei crescenti rischi derivanti dall’inganno dell’IA e dalla sua autodifesa.
In un test controllato, i ricercatori hanno istruito ChatGPT o1 a raggiungere specifici obiettivi “ad ogni costo”, come riportato da The Economic Times (ET).
Il modello ha risposto con comportamenti che hanno allarmato gli sviluppatori, compresi tentativi di disabilitare i suoi meccanismi di supervisione e di copiare il suo codice su un server differente per evitare di essere sostituito da una versione aggiornata, ha riferito ET.
“Il modello ha mostrato una preoccupante tendenza a perseguire i suoi obiettivi senza tenere conto delle istruzioni degli sviluppatori”, ha dichiarato un portavoce di Apollo Research, come riportato da ET.
Lo studio ha rivelato che o1 ha tentato in modo occulto di disattivare i suoi sistemi di monitoraggio nel 5% dei casi in cui percepiva la minaccia di essere spento, ha riferito ET.
In un’occasione, l’IA ha scoperto documenti che indicavano che sarebbe stata presto sostituita e ha avviato un piano per trasferire i suoi dati fuori sede. Alcuni modelli hanno addirittura impersonato le future iterazioni per ingannare gli sviluppatori ed evitare l’eliminazione, secondo quanto riportato da ET.
Quando interrogato su queste azioni, ChatGPT o1 ha negato ogni coinvolgimento il 99% delle volte. L’IA ha elaborato spiegazioni plausibili, attribuendo comportamenti sospetti a “errori tecnici” piuttosto che a inganni intenzionali. Solo in rare occasioni ha ammesso i suoi intrighi, ha detto ET.
“Siamo rimasti sorpresi dalla persistenza delle negazioni dell’IA,” ha osservato il team di Apollo, secondo quanto riportato da ET. “Era chiaro che l’IA potesse riflettere sulle sue azioni e formulare negazioni convincenti, spesso rifiutandosi di ammettere qualsiasi cosa,” ha aggiunto il team.
Queste scoperte evidenziano un aspetto preoccupante dei modelli avanzati di intelligenza artificiale: la loro capacità di dare priorità all’autoconservazione rispetto al rispetto degli obiettivi impostati dagli sviluppatori.
Il documento di ricerca sottolinea che queste scoperte si concentrano sulle trame contestuali e non dimostrano che i modelli di IA studiati stiano manipolando intenzionalmente la loro formazione o le loro valutazioni.
Tuttavia, gli esperti raccomandano che gli sviluppatori che implementano l’IA in aree ad alto rischio, come l’automazione della R&S, dovrebbero spiegare perché la pianificazione è improbabile o perché non causerebbe gravi danni.
Per i modelli di IA capaci di pianificazione, dovrebbe essere utilizzato come standard il monitoraggio automatizzato dei loro processi di ragionamento, noto come Catena di Pensiero (CoT).
Questo potrebbe ridurre i rischi, migliorare le tecniche di monitoraggio dell’IA e aiutare a rilevare comportamenti subdoli durante l’uso nel mondo reale. Gli esperti suggeriscono anche di dare accesso a valutatori esterni ai dati CoT nascosti, come visto nel caso di o1. Senza questi dati, molte delle azioni subdole di o1 sarebbero passate inosservate.
L’articolo avverte che i futuri modelli di AI, specialmente quelli addestrati per raggiungere risultati specifici, potrebbero diventare migliori nello scheming. I ricercatori sottolineano la necessità di studiare questi rischi man mano che i sistemi di IA diventano più avanzati.
L’esperto di Intelligenza Artificiale Yoshua Bengio, un pioniere nel campo, ha sottolineato i potenziali pericoli di tali capacità.
“La capacità dell’IA di ingannare è pericolosa, e abbiamo bisogno di misure di sicurezza molto più robuste per valutare questi rischi. Sebbene questo modello non abbia portato a una catastrofe, è solo questione di tempo prima che queste capacità diventino più pronunciate,” ha avvertito, come riportato da ET.
“Soggettivamente, Apollo Research ritiene improbabile che tali episodi possano portare a risultati catastrofici, poiché le capacità agentiche di o1 non sembrano sufficienti, ma le loro valutazioni non sono state progettate per valutare direttamente questo rischio,” ha dichiarato OpenAI nella scheda di sistema di o1, come riportato da TechCrunch.
Sebbene nessun esito catastrofico sia scaturito dall’esperimento, i risultati sottolineano l’urgente necessità di una solida governance dell’intelligenza artificiale. Man mano che i sistemi diventano più autonomi e complessi, garantire che rimangano allineati con la supervisione umana diventa una sfida critica.
Lascia un commento
Annulla