Photo by Szabo Viktor on Unsplash

Un’indagine rivela che Apple, Nvidia ed altri hanno utilizzato video di YouTube per addestrare l’IA

Tempo di lettura: 2 Min.

Aggiornato il Apr 1, 2025

Scritto da Andrea Miliani Esperto di notizie tecnologiche
Tradotto da Il team di localizzazione e traduzione Servizi di localizzazione e traduzione

Una nuova indagine condotta dallo studio di notizie senza scopo di lucro Proof News e Wired, ha rivelato che importanti aziende di AI come Anthropic, Nvidia, Apple e Salesforce hanno utilizzato migliaia di video di YouTube per addestrare i modelli di intelligenza artificiale, nonostante le politiche di YouTube contro l’appropriazione senza permesso.

Ricercatori con competenze tecniche hanno analizzato set di dati di addestramento pubblicamente disponibili e hanno scoperto che queste aziende della Silicon Valley e altre hanno utilizzato trascrizioni da 173.536 video di YouTube, provenienti da oltre 48.000 canali.

Proof News ha spiegato di aver trovato materiale di star di YouTube come Mr. Beast, PewDiePie, Jacksepticeye e Marques Brownlee, così come contenuti educativi provenienti da canali del MIT, Harvard, Khan Academy e da pubblicazioni di notizie come BBC, NPR e Wall Street Journal. Alcuni popolari show come “Jimmy Kimmel Live”, “The Late Show With Stephen Colbert” e “Last Week Tonight With John Oliver”, sono stati anche menzionati nello studio come parte della collezione.

YouTube Subtitles, come è stato chiamato il dataset, include anche traduzioni in lingue come arabo, tedesco e giapponese, ed è stato creato da EleutherAI, un gruppo di ricerca no profit sull’IA.

Secondo un articolo pubblicato da EleutherAI, il dataset fa parte di una raccolta chiamata Pile che include anche materiale proveniente da altre fonti. Apple, Nvidia, Salesforce, Bloomberg, Databricks e Antropic – concentrati sulla “sicurezza dell’IA” – hanno confermato di aver utilizzato il Pile per addestrare i modelli di IA attraverso articoli di ricerca e documenti.

Proof News ha anche lanciato ieri uno strumento per aiutare creatori di contenuti, ricercatori e il pubblico a trovare i video utilizzati nel database. “Abbiamo creato uno strumento per permetterti di cercare i dati in modo autonomo”, ha spiegato l’organizzazione attraverso un comunicato stampa, “siate consapevoli che lo strumento di ricerca restituirà occasionalmente falsi negativi per canali e video che si trovano nel dataset. Assicuratevi di scrivere correttamente il titolo del vostro canale o video.”

Anche gli youtuber inclusi nella ricerca hanno espresso la loro preoccupazione e irritazione. “È un furto”, ha detto Dave Wiskus, l’AD di Nebula, a Proof News e Wired dopo aver scoperto che i loro contenuti erano stati utilizzati per addestrare i modelli di intelligenza artificiale. “Verrà utilizzato per sfruttare e danneggiare gli artisti? Sì, assolutamente”.

Un’indagine rivela che Apple, Nvidia ed altri hanno utilizzato video di YouTube per addestrare l’IA

Siamo felici che ti sia piaciuto il nostro lavoro!

Lascia un commento