Harvard Rilascia Gratuitamente un’Estesa Banca Dati per la Formazione sull’Intelligenza Artificiale
L’Università di Harvard ha annunciato che rilascerà gratuitamente un ampio set di dati di quasi 1 milione di libri di pubblico dominio per l’addestramento dell’IA, creato dal suo nuovo programma Institutional Data Initiative (IDI).
Hai fretta? Ecco i Fatti Essenziali!
- Harvard, in collaborazione con Google Books, ha rilasciato un dataset con quasi 1 milione di libri di dominio pubblico per addestrare gratuitamente i modelli di AI
- Il dataset è stato creato dalla nuova Iniziativa per i Dati Istituzionali, un’iniziativa supportata da Microsoft e OpenAI
- Le piccole organizzazioni possono beneficiare di questa raccolta di dati per competere in modo più equo nella sfera dell’AI
Secondo Wired, il dataset include pubblicazioni scannerizzate da Google Libri che non sono più protette dal copyright – di solito scade 70 anni dopo la morte dell’autore o la sua pubblicazione. La raccolta di dati copre vari formati e generi, dalla scrittura creativa di famosi autori come Charles Dickens, Shakespeare e Dante, fino a manuali e dizionari.
Secondo il direttore esecutivo dell’IDI Greg Leppert, l’obiettivo è di “livellare il campo di gioco” e permettere a più organizzazioni e piccoli progetti di unirsi alla corsa all’IA con strumenti preziosi. La dimensione del set di dati è più grande di quella utilizzata per addestrare modelli di IA popolari come Llama di Meta. “Penso un po’ come se Linux fosse diventato un sistema operativo fondamentale per gran parte del mondo,” ha detto Leppert.
L’IDI è stato ufficialmente lanciato oggi ed è stato supportato da OpenAI e Microsoft con finanziamenti e parole di incoraggiamento. L’iniziativa mira a lavorare con istituzioni del sapere come agenzie governative e biblioteche “per sviluppare collezioni di dati e migliori pratiche per l’intelligenza artificiale”. Non sono stati rivelati i dettagli su come il nuovo set di dati possa essere scaricato, solo che Google aiuterà con la distribuzione.
Questa nuova raccolta di dati dovrebbe evitare dispute per violazione dei diritti d’autore, un problema che molte aziende di intelligenza artificiale hanno affrontato quest’anno. “Grandi set di dati di dominio pubblico come questi smantellano ulteriormente la ‘difesa della necessità’ che alcune aziende di IA usano per giustificare lo scraping di opere protette da copyright per addestrare i loro modelli”, ha detto Ed Newton-Rex, un ex dirigente di Stability AI che ora gestisce un’organizzazione no profit che certifica strumenti di IA addestrati eticamente, a Wired.
Newton-Rex ha recentemente guidato una petizione per fermare le aziende tecnologiche dallo scraping dei dati per addestrare i loro modelli di IA.
Lascia un commento
Annulla