Image by Freepik

OpenAI’s o3 Raggiunge l’Intelligenza al Livello Umano nel Test di Benchmark Chiave

Tempo di lettura: 4 Min.

Inserito il Apr 6, 2025

Scritto da Kiara Fabbri Giornalista multimediale
Tradotto da Il team di localizzazione e traduzione Servizi di localizzazione e traduzione

Un recente progresso nell’intelligenza artificiale ha avvicinato i ricercatori alla creazione dell’intelligenza artificiale generale (AGI), un obiettivo a lungo ricercato nel campo.

Di fretta? Ecco i Fatti Essenziali!

L’o3 AI di OpenAI ha ottenuto l’85% al benchmark ARC-AGI di intelligenza generale.
Il punteggio equivale alla media delle prestazioni umane e supera il record precedente dell’AI del 55%.
Il test ARC-AGI misura l’efficienza del campione e la capacità di adattarsi a nuovi compiti.

Il nuovo sistema di intelligenza artificiale di OpenAI, conosciuto come o3, ha raggiunto un punteggio dell’85% sul benchmark ARC-AGI, un test progettato per misurare la capacità di un’intelligenza artificiale di adattarsi a nuove situazioni, come riportato da The Conversation.

Questo risultato supera il precedente record dell’IA del 55% e raggiunge le prestazioni umane medie, segnando una pietra miliare significativa nella ricerca sull’IA. Il benchmark ARC-AGI valuta l'”efficienza del campione” di un sistema IA, che si riferisce a quanto bene esso apprende da esempi limitati, afferma The Conversation.

A differenza dei modelli di IA comunemente utilizzati come ChatGPT, che si basano su enormi set di dati per generare output, il modello o3 dimostra la capacità di generalizzare e adattarsi a nuovi compiti con dati minimi. Questa capacità è considerata fondamentale per raggiungere un’intelligenza simile a quella umana, come riportato da The Conversation.

Sviluppato dal ricercatore francese di intelligenza artificiale François Chollet, il test ARC-AGI prevede la risoluzione di puzzle basati su griglie identificando modelli.

I tradizionali LLM si basano sulla memorizzazione, il recupero e l’applicazione di “mini-programmi” pre-appresi, ma faticano con l’intelligenza fluida, come dimostrato dai bassi punteggi ottenuti nel benchmark ARC-AGI. Il modello o3 introduce un meccanismo di sintesi del programma al momento del test, permettendogli di generare ed eseguire nuove soluzioni, come dettagliato da Chollet.

Chollet spiega che, nel suo nucleo, o3 esegue una ricerca di programma in linguaggio naturale all’interno dello spazio dei token, guidata da un modello valutatore. Quando si trova di fronte a un compito, o3 esplora possibili “catene di pensiero” (CoTs) – soluzioni passo-passo descritte in linguaggio naturale.

Valuta queste CoTs per la loro idoneità, ricombinando le conoscenze in programmi coerenti per affrontare efficacemente nuove sfide. The Conversation fa notare che OpenAI non ha rivelato i metodi esatti utilizzati per sviluppare o3, ma gli ricercatori ipotizzano che il sistema utilizzi un processo simile a quello di AlphaGo di Google, che ha sconfitto il campione mondiale di Go nel 2016.

Tuttavia, Chollet sottolinea che il processo è computazionalmente intensivo. La generazione di soluzioni può comportare l’esplorazione di milioni di percorsi potenziali nello spazio del programma, comportando costi significativi in termini di tempo e risorse. A differenza di sistemi come AlphaZero, che acquisiscono autonomamente capacità attraverso l’apprendimento iterativo, o3 dipende dai dati CoT etichettati da esperti, limitando la sua autonomia.

Nonostante questi risultati promettenti, rimangono domande significative. OpenAI ha rilasciato informazioni limitate su o3, condividendo dettagli solo con alcuni ricercatori e istituzioni selezionate.

The Conversation osserva che non è chiaro se l’adattabilità del sistema derivi da modelli sottostanti fondamentalmente migliorati o da ottimizzazioni specifiche del compito durante l’addestramento. Ulteriori test e trasparenza saranno fondamentali per comprendere il vero potenziale di o3.

Inoltre, Chollet evidenzia il costo di questa intelligenza: risolvere i compiti ARC-AGI costa $5 per gli esseri umani, ma per o3 in modalità low-compute costa tra $17 e $20. Tuttavia, si prevedono rapidi miglioramenti, che renderanno o3 competitivo con le prestazioni umane presto.

Il conseguimento riaccende i dibattiti sulla fattibilità e le implicazioni dell’AG. Per alcuni ricercatori, il successo di o3 rende la prospettiva dell’AGI più concreta e urgente. Questo è particolarmente cruciale considerando le preoccupazioni sulla sicurezza informatica, poiché le varianti di malware generate dall’IA eludono sempre più spesso il rilevamento.

Tuttavia, altri restano cauti, sottolineando che sono necessarie valutazioni robuste per determinare se le capacità di o3 vanno oltre specifici benchmark. Mentre la comunità dell’IA attende un accesso più ampio a o3, la svolta segnala un momento trasformativo nella ricerca di sistemi intelligenti in grado di ragionare e apprendere come gli esseri umani.

OpenAI’s o3 Raggiunge l’Intelligenza al Livello Umano nel Test di Benchmark Chiave

Siamo felici che ti sia piaciuto il nostro lavoro!

Lascia un commento