Image by Adisorn, from Adobe Stock

Lo Studio Rivela che le Crescenti Restrizioni sui Dati Influenzano la Formazione dell’IA

Tempo di lettura: 4 Min.

Inserito il Apr 1, 2025

Scritto da Kiara Fabbri Giornalista multimediale
Tradotto da Il team di localizzazione e traduzione Servizi di localizzazione e traduzione

Un nuovo studio guidato da un gruppo di ricerca del MIT, rivela una crescente tendenza dei siti web a limitare l’uso dei loro dati per la formazione dell’IA. Lo studio ha esaminato 14.000 domini web e ha scoperto che sono state imposte restrizioni sul 5% di tutti i dati. Inoltre, oltre il 28% dei dati provenienti dalle fonti di qualità più alta in tre set di dati di addestramento IA comunemente utilizzati è limitato. Questo studio rappresenta il primo audit longitudinale su larga scala dei protocolli di consenso per i domini web utilizzati nei corpora di addestramento dell’IA.

I sistemi IA generativi, come ChatGPT, Gemini e Claude, si basano fortemente su grandi quantità di dati per funzionare efficacemente. La qualità delle uscite di questi strumenti IA dipende in modo significativo dalla qualità dei dati su cui vengono addestrati. Storicamente, la raccolta di questi dati era relativamente semplice, ma l’attuale boom dell’IA generativa ha portato a tensioni con i proprietari dei dati. Molti proprietari di dati sono preoccupati per il fatto che i loro contenuti vengano utilizzati per l’addestramento dell’IA senza una giusta compensazione o un adeguato consenso.

Di conseguenza, c’è stata una reazione da parte degli editori. Alcuni hanno istituito paywall o modificato i loro termini di servizio per limitare l’uso dei loro dati per l’addestramento dell’IA. Altri hanno preso misure più drastiche, come il blocco dei web crawler automatizzati che le aziende usano per raccogliere dati. Azioni legali e restrizioni attraverso i file robots.txt e le modifiche ai termini di servizio stanno diventando sempre più comuni.

Le conseguenze di questa stretta sui dati sono molteplici. Renderà più difficile lo sviluppo di sistemi IA, poiché si basano fortemente su questi dati per l’addestramento. Le restrizioni potrebbero anche influenzare i modelli di IA limitandoli a set di dati meno diversificati. Inoltre, potrebbero sorgere problemi di diritti d’autore se i modelli di IA vengono addestrati su dati che i siti web non vogliono che vengano utilizzati per tale scopo.

Le restrizioni stanno avendo un impatto significativo. In un solo anno, una porzione significativa dei dati provenienti da siti web importanti è diventata limitata, e si prevede che questa tendenza continuerà.

Shayne Longpre, l’autrice principale dello studio, afferma: “Stiamo assistendo a un rapido declino del consenso all’uso dei dati su tutto il web che avrà ripercussioni non solo per le aziende di Intelligenza Artificiale, ma anche per i ricercatori, gli accademici e le entità non commerciali.”

Ciò significa che le piccole aziende di intelligenza artificiale e i ricercatori accademici che dipendono da set di dati liberamente disponibili potrebbero essere colpiti in modo sproporzionato, poiché spesso non dispongono delle risorse per ottenere le licenze dei dati direttamente dagli editori.

Ad esempio, Common Crawl, un set di dati composto da miliardi di pagine di contenuti web e gestito da un’organizzazione senza scopo di lucro, è stato citato in oltre 10.000 studi accademici, illustrando il suo ruolo fondamentale nella ricerca.

Lo studio sottolinea la necessità di nuovi strumenti che diano ai proprietari dei siti web un maggiore controllo su come vengono utilizzati i loro dati. Idealmente, questi strumenti consentirebbero loro di distinguere tra usi commerciali e non commerciali, permettendo l’accesso per scopi di ricerca o didattici.

La situazione serve anche da monito alle grandi aziende di Intelligenza Artificiale. Hanno bisogno di trovare modi per collaborare con i proprietari dei dati e offrire loro un valore in cambio dell’accesso. Un approccio più sostenibile è fondamentale per il continuo sviluppo dell’IA.

Longpre ha sottolineato la necessità per le grandi aziende di intelligenza artificiale di collaborare con i proprietari dei dati e offrire loro un valore in cambio dell’accesso. Per anni, queste aziende hanno trattato internet come un “buffet di dati a volontà” senza dare molto in cambio ai proprietari dei dati. Tuttavia, questo approccio non è sostenibile e, man mano che i proprietari dei dati diventano più protettivi nei confronti dei loro contenuti, le aziende di intelligenza artificiale dovranno trovare modi per lavorare con loro per garantire un accesso continuo a dati di alta qualità.

Lo Studio Rivela che le Crescenti Restrizioni sui Dati Influenzano la Formazione dell’IA

Siamo felici che ti sia piaciuto il nostro lavoro!

Lascia un commento