Image by frimufilms, from Freepik

Degradazione del Modello di Intelligenza Artificiale: Nuove Ricerche Mostrano i Rischi dell’Addestramento dell’IA sui Dati Generati dall’IA

Tempo di lettura: 3 Min.

Inserito il Apr 3, 2025

Scritto da Kiara Fabbri Giornalista multimediale
Tradotto da Il team di localizzazione e traduzione Servizi di localizzazione e traduzione

Secondo uno studio pubblicato il 24 luglio, la qualità degli output dei modelli di intelligenza artificiale rischia di degradarsi man mano che più dati generati da AI invadono internet.

I ricercatori di questo studio hanno scoperto che i modelli di AI addestrati con dati generati da AI producono risultati sempre più insensati nel tempo. Questo fenomeno è noto come “crollo del modello”. Ilia Shumailov, autore principale dello studio, confronta il processo al ripetuto copiare una fotografia. “Se scatti una foto e la scansioni, poi la stampi e ripeti questo processo nel tempo, sostanzialmente il rumore sovrasta l’intero processo, […] Rimani con un quadrato scuro”.

Questo degrado rappresenta un rischio significativo per i grandi modelli di intelligenza artificiale come GPT-3, che si basano su enormi quantità di dati internet per l’addestramento. GPT-3, ad esempio, è stato parzialmente addestrato su dati provenienti da Common Crawl, un deposito online che contiene oltre 3 miliardi di pagine web. Il problema si aggrava man mano che i contenuti spazzatura generati dall’IA si moltiplicano online. Questo effetto potrebbe essere ulteriormente amplificato dai risultati di un nuovo studio che indica crescenti restrizioni sui dati disponibili per l’addestramento dell’IA.

Il team di ricerca ha testato gli effetti affinando un grande modello linguistico (LLM) sui dati di Wikipedia e poi riaddestrandolo sui propri output per nove generazioni. Hanno misurato la qualità dell’output utilizzando un “punteggio di perplessità”, che indica la fiducia del modello nel prevedere la parte successiva di una sequenza. Punteggi più alti riflettono modelli meno accurati. Hanno osservato un aumento dei punteggi di perplessità in ogni generazione successiva, evidenziando il degrado.

Questo degrado potrebbe rallentare i miglioramenti e influire sulle prestazioni. Ad esempio, in un test, dopo nove generazioni di riaddestramento, il modello ha prodotto un testo completamente senza senso.

Un’idea per aiutare a prevenire il degrado è garantire che il modello dia più peso ai dati originali generati dall’uomo. Un’altra parte dello studio di Shumailov ha permesso alle future generazioni di campionare il 10% del dataset originale, il che ha mitigato alcuni effetti negativi.

La discussione dello studio sottolinea l’importanza di preservare dati di alta qualità, diversificati e generati dall’uomo per l’addestramento dei modelli di Intelligenza Artificiale. Senza un’attenta gestione, l’aumento della dipendenza da contenuti generati dall’IA potrebbe portare a un calo delle prestazioni e dell’equità dell’IA. Per affrontare questo problema, è necessaria una collaborazione tra ricercatori e sviluppatori per tracciare l’origine dei dati (provenienza dei dati) e garantire che i futuri modelli di IA abbiano accesso a materiali di formazione affidabili.

Tuttavia, l’implementazione di tali soluzioni richiede metodi efficaci di provenienza dei dati, attualmente carenti. Sebbene esistano strumenti per rilevare il testo generato dall’IA, la loro accuratezza è limitata.

Shumailov conclude, “Purtroppo, abbiamo più domande che risposte […] Ma è chiaro che è importante sapere da dove provengono i tuoi dati e quanto puoi fidarti di essi per catturare un campione rappresentativo dei dati con cui stai lavorando.”

Degradazione del Modello di Intelligenza Artificiale: Nuove Ricerche Mostrano i Rischi dell’Addestramento dell’IA sui Dati Generati dall’IA

Siamo felici che ti sia piaciuto il nostro lavoro!

Lascia un commento