Ricercatori statunitensi realizzano un Modello di Ragionamento Avanzato per meno di 50 dollari

Photo by Sebastien Bonneval on Unsplash

Ricercatori statunitensi realizzano un Modello di Ragionamento Avanzato per meno di 50 dollari

Tempo di lettura: 3 Min.

Ricercatori di intelligenza artificiale dell’Università di Washington e di Stanford hanno addestrato un modello di ragionamento AI per meno di 50 dollari – in crediti di cloud computing – chiamato s1. Il team ha pubblicato un articolo, intitolato s1: Simple test-time scaling, con maggiori dettagli sulla loro metodologia questo lunedì.

Di fretta? Ecco i fatti salienti!

  • Ricercatori di Intelligenza Artificiale dell’Università di Washington e Stanford hanno addestrato un modello di ragionamento AI per meno di $50 e hanno condiviso la loro ricerca questo lunedì.
  • Hanno utilizzato la tecnica di distillazione, uno scaling al momento del test, e un approccio di fine-tuning supervisionato, con un dataset di 1.000 domande.
  • Il modello s1 si comporta in modo simile a DeepSeek R1 e OpenAI o1.

Secondo TechCrunch, il nuovo modello si comporta in modo simile ai modelli avanzati come R1 di DeepSeek o o1 di OpenAI ed è disponibile su GitHub.

Per sviluppare il modello di intelligenza artificiale, i ricercatori hanno applicato un processo noto come distillazione, quando un modello di intelligenza artificiale più grande fornisce dati a un modello più piccolo, ottenendo capacità di ragionamento dal Gemini 2.0 Flash Thinking sperimentale di Google.

Questo processo sta guadagnando popolarità nell’industria dell’IA, dato che OpenAI sostiene che DeepSeek ha utilizzato il processo, senza autorizzazione, per sviluppare il suo avanzato modello di ragionamento. I ricercatori del Sky Computing Lab dell’Università di Berkeley sono riusciti recentemente a formare un modello di ragionamento per meno di $450 con questa tecnica, cosa che sta suscitando dibattito nella Silicon Valley e rabbia tra le grandi aziende di intelligenza artificiale.

Gli ricercatori che stanno sviluppando il modello s1 hanno anche considerato un approccio di “scalatura al momento del test” – costringendo il modello a fermarsi e ragionare di più prima di fornire una risposta – e hanno eseguito il fine-tuning supervisionato da un modello pre-addestrato per costruire il suo modello di ragionamento AI.

“Sviluppiamo l’obbligo di bilancio per controllare il calcolo al momento del test interrompendo forzatamente il processo di pensiero del modello o allungandolo aggiungendo più volte ‘Aspetta’ alla generazione del modello quando cerca di terminare,” afferma il documento. “Questo può portare il modello a rivedere la sua risposta, correggendo spesso un ragionamento errato.”

Gli esperti hanno utilizzato un insieme di dati di 1.000 domande e risposte curate per allenare il suo modello in meno di 30 minuti utilizzando le GPU Nvidia H100, dimostrando che è possibile ottenere risultati avanzati con un piccolo database e sfruttando altre tecnologie e modelli di intelligenza artificiale.

“I recenti progressi nel ragionamento, come l’o1 di OpenAi e il R1 di DeepSeek, mancano di trasparenza, limitando il progresso della ricerca in senso lato”, hanno scritto i ricercatori. “Il nostro lavoro mira a spingere il confine del ragionamento in modo completamente aperto, promuovendo innovazione e collaborazione per accelerare i progressi che alla fine beneficiano la società”.

Hai apprezzato questo articolo?
Valutalo!
L'ho odiato Non mi è piaciuto Non male Molto bene! L'ho amato!

Siamo felici che ti sia piaciuto il nostro lavoro!

In qualità di stimato lettore, ti dispiacerebbe lasciare una recensione su Trustpilot? Richiede poco tempo e significa tantissimo per noi. Grazie mille!

Valutaci su Trustpilot
0 Votato da 0 utenti
Titolo
Commento
Grazie per la tua opinione!
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Lascia un commento

Loader
Loader Mostra di più...