
Photo by Igor Omilaev on Unsplash
La Fondazione Arc Prize lancia un nuovo e stimolante benchmark AGI, evidenziando le debolezze dell’IA
La fondazione senza scopo di lucro Arc Prize Foundation ha annunciato un nuovo benchmark, ARC-AGI-2, per sfidare i modelli AI di frontiera sul ragionamento e le capacità a livello umano lunedì. L’organizzazione ha anche annunciato un nuovo concorso, ARC Prize 2025, che si svolgerà da marzo a novembre, e il vincitore si aggiudicherà un Gran Premio di $700,000.
Hai fretta? Ecco i fatti principali:
- La Fondazione Arc Prize ha lanciato un nuovo benchmark chiamato ARC-AGI-2 per testare i modelli di intelligenza artificiale sulle capacità di ragionamento a livello umano.
- I modelli di intelligenza artificiale attualmente migliori hanno fallito il test, ottenendo punteggi tra lo 0.0% e il 4%, mentre gli esseri umani hanno raggiunto fino al 100%.
- L’organizzazione no profit ha anche annunciato la competizione ARC Prize 2025 per il benchmark, e il vincitore riceverà un premio di $700,000.
Secondo le informazioni condivise dall’organizzazione, i modelli di intelligenza artificiale più popolari sul mercato non sono riusciti a superare un punteggio del 4% su ARC-AGI-2, mentre gli esseri umani possono facilmente risolvere il test.
“Oggi siamo entusiaste di lanciare ARC-AGI-2 per sfidare la nuova frontiera”, afferma l’annuncio. “ARC-AGI-2 è ancora più difficile per l’IA (in particolare, i sistemi di ragionamento AI), pur mantenendo la stessa facilità relativa per gli esseri umani.”
ARC-AGI-2 è la seconda edizione del benchmark dell’organizzazione, ARC-AGI-1, lanciato nel 2019. Nel test precedente, solo l’o3 di OpenAI ha raggiunto con successo l’85% nel Dicembre 2024.
Questa nuova versione si concentra su compiti che sono facili per gli esseri umani e difficili per i modelli di intelligenza artificiale, o impossibili fino ad ora. A differenza di altri benchmark, ARC-AGI-2 non considera le competenze da dottorato o le capacità sovrumane, invece, i compiti valutano la capacità di adattamento e le competenze di risoluzione dei problemi applicando le conoscenze esistenti.
Arc Prize ha spiegato che ogni compito nel test è stato risolto dagli esseri umani in meno di 2 tentativi, e i modelli di intelligenza artificiale devono rispettare regole simili, considerando i costi più bassi. Il test include l’interpretazione simbolica – i modelli di intelligenza artificiale devono capire i simboli oltre i modelli visivi -, considerando regole simultanee, e regole che cambiano a seconda del contesto – qualcosa in cui la maggior parte dei sistemi di ragionamento di intelligenza artificiale fallisce.
L’organizzazione ha testato il nuovo benchmark con esseri umani e modelli di intelligenza artificiale pubblici. I panel di umani hanno ottenuto punteggi del 100% e del 60% mentre sistemi di frontiera popolari come DeepSeek’s R1 e R1-zero hanno ottenuto lo 0.3%, e i puri LLM di GPT-4.5 e o3-mini-high hanno ottenuto lo 0.0%. L’o3-low di OpenAI, utilizzando il ragionamento, la ricerca e la sintesi della Chain-of-Thought, ha raggiunto una stima del 4%, ad un alto costo per compito.
Arc Prize ha inoltre lanciato l’ultimo concorso open-source, ARC Prize 2025, ospitato tra marzo e novembre sulla popolare piattaforma online Kaggle. La prima squadra a raggiungere un punteggio superiore all’85% – e un’efficienza di $2.5 per compito – sul benchmark ARC-AGI-2 riceverà un Gran Premio di $700,000. Ci saranno inoltre premi per gli articoli e altri premi per i punteggi più alti.
La fondazione ha dichiarato che ulteriori dettagli saranno forniti sul sito ufficiale e nei prossimi giorni.
Lascia un commento
Annulla