La Fondazione Arc Prize lancia un nuovo e stimolante benchmark AGI, evidenziando le debolezze dell’IA

Photo by Igor Omilaev on Unsplash

La Fondazione Arc Prize lancia un nuovo e stimolante benchmark AGI, evidenziando le debolezze dell’IA

Tempo di lettura: 3 Min.

La fondazione senza scopo di lucro Arc Prize Foundation ha annunciato un nuovo benchmark, ARC-AGI-2, per sfidare i modelli AI di frontiera sul ragionamento e le capacità a livello umano lunedì. L’organizzazione ha anche annunciato un nuovo concorso, ARC Prize 2025, che si svolgerà da marzo a novembre, e il vincitore si aggiudicherà un Gran Premio di $700,000.

Hai fretta? Ecco i fatti principali:

  • La Fondazione Arc Prize ha lanciato un nuovo benchmark chiamato ARC-AGI-2 per testare i modelli di intelligenza artificiale sulle capacità di ragionamento a livello umano.
  • I modelli di intelligenza artificiale attualmente migliori hanno fallito il test, ottenendo punteggi tra lo 0.0% e il 4%, mentre gli esseri umani hanno raggiunto fino al 100%.
  • L’organizzazione no profit ha anche annunciato la competizione ARC Prize 2025 per il benchmark, e il vincitore riceverà un premio di $700,000.

Secondo le informazioni condivise dall’organizzazione, i modelli di intelligenza artificiale più popolari sul mercato non sono riusciti a superare un punteggio del 4% su ARC-AGI-2, mentre gli esseri umani possono facilmente risolvere il test.

“Oggi siamo entusiaste di lanciare ARC-AGI-2 per sfidare la nuova frontiera”, afferma l’annuncio. “ARC-AGI-2 è ancora più difficile per l’IA (in particolare, i sistemi di ragionamento AI), pur mantenendo la stessa facilità relativa per gli esseri umani.”

ARC-AGI-2 è la seconda edizione del benchmark dell’organizzazione, ARC-AGI-1, lanciato nel 2019. Nel test precedente, solo l’o3 di OpenAI ha raggiunto con successo l’85% nel Dicembre 2024.

Questa nuova versione si concentra su compiti che sono facili per gli esseri umani e difficili per i modelli di intelligenza artificiale, o impossibili fino ad ora. A differenza di altri benchmark, ARC-AGI-2 non considera le competenze da dottorato o le capacità sovrumane, invece, i compiti valutano la capacità di adattamento e le competenze di risoluzione dei problemi applicando le conoscenze esistenti.

Arc Prize ha spiegato che ogni compito nel test è stato risolto dagli esseri umani in meno di 2 tentativi, e i modelli di intelligenza artificiale devono rispettare regole simili, considerando i costi più bassi. Il test include l’interpretazione simbolica – i modelli di intelligenza artificiale devono capire i simboli oltre i modelli visivi -, considerando regole simultanee, e regole che cambiano a seconda del contesto – qualcosa in cui la maggior parte dei sistemi di ragionamento di intelligenza artificiale fallisce.

L’organizzazione ha testato il nuovo benchmark con esseri umani e modelli di intelligenza artificiale pubblici. I panel di umani hanno ottenuto punteggi del 100% e del 60% mentre sistemi di frontiera popolari come DeepSeek’s R1 e R1-zero hanno ottenuto lo 0.3%, e i puri LLM di GPT-4.5 e o3-mini-high hanno ottenuto lo 0.0%. L’o3-low di OpenAI, utilizzando il ragionamento, la ricerca e la sintesi della Chain-of-Thought, ha raggiunto una stima del 4%, ad un alto costo per compito.

Arc Prize ha inoltre lanciato l’ultimo concorso open-source, ARC Prize 2025, ospitato tra marzo e novembre sulla popolare piattaforma online Kaggle. La prima squadra a raggiungere un punteggio superiore all’85% – e un’efficienza di $2.5 per compito – sul benchmark ARC-AGI-2 riceverà un Gran Premio di $700,000. Ci saranno inoltre premi per gli articoli e altri premi per i punteggi più alti.

La fondazione ha dichiarato che ulteriori dettagli saranno forniti sul sito ufficiale e nei prossimi giorni.

Hai apprezzato questo articolo?
Valutalo!
L'ho odiato Non mi è piaciuto Non male Molto bene! L'ho amato!

Siamo felici che ti sia piaciuto il nostro lavoro!

In qualità di stimato lettore, ti dispiacerebbe lasciare una recensione su Trustpilot? Richiede poco tempo e significa tantissimo per noi. Grazie mille!

Valutaci su Trustpilot
0 Votato da 0 utenti
Titolo
Commento
Grazie per la tua opinione!
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Lascia un commento

Loader
Loader Mostra di più...