Photo by Steve Johnson on Unsplash

Ricercatori Antropici Scoprono la Capacità dell’IA di Pianificare in Anticipo e Ragionare

Tempo di lettura: 3 Min.

Inserito il Apr 2, 2025

Scritto da Andrea Miliani Esperto di notizie tecnologiche
Tradotto da Il team di localizzazione e traduzione Servizi di localizzazione e traduzione

La startup di intelligenza artificiale Anthropic ha pubblicato due nuovi articoli questo giovedì, rivelando una comprensione più profonda di come funzionano i Large Language Models (LLMs). Gli studi, che si sono concentrati sull’analisi del modello Claude 3.5 Haiku dell’azienda, rivelano ulteriori dettagli su come si comportano i modelli AI sofisticati, così come le loro vulnerabilità e le opportunità per sviluppare ambienti più sicuri.

Hai fretta? Ecco i fatti essenziali:

Anthropic ha pubblicato due nuovi articoli che rivelano come il suo modello Claude 3.5 Haiku elabora il linguaggio e il ragionamento.
I ricercatori hanno utilizzato i grafici di attribuzione per scoprire i circuiti dell’IA e capire come i modelli prendono decisioni, scrivono poesie o allucinano.
Gli studi mirano a portare più chiarezza sulla “natura della scatola nera” dei modelli generativi avanzati di IA.

I nuovi studi di Anthropic mirano a portare più chiarezza alla “natura black-box” dei modelli. In uno dei documenti, Sulla Biologia di un Grande Modello Linguistico, i ricercatori confrontano i loro lavori con le sfide affrontate dai biologi e hanno trovato soluzioni che possono essere paragonate a quelle utilizzate per le scoperte rivoluzionarie in biologia.

“Sebbene i modelli linguistici siano generati da semplici algoritmi di addestramento progettati dall’uomo, i meccanismi nati da questi algoritmi sembrano essere piuttosto complessi”, afferma il documento. “Proprio come le cellule costituiscono i mattoni dei sistemi biologici, ipotizziamo che le caratteristiche costituiscano le unità di base del calcolo all’interno dei modelli.”

Gli esperti si sono affidati a uno strumento di ricerca chiamato “grafi di attribuzione” che ha permesso loro di mappare le connessioni, monitorare le performance e i circuiti del modello di intelligenza artificiale, e ottenere ulteriori approfondimenti su vari fenomeni, anche quelli già esplorati.

La società ha rivelato molteplici scoperte, come ad esempio che il modello di Intelligenza Artificiale applica un processo di ragionamento multi-step “nella sua testa” prima di fornire una risposta, che pianifica le sue poesie in anticipo cercando prima le parole che rimano, che ha sviluppato circuiti indipendenti dal linguaggio, e come allucina passando attraverso entità sconosciute nei suoi circuiti.

“Molti dei nostri risultati ci hanno sorpreso,” hanno scritto i ricercatori nel documento. “A volte è stato perché i meccanismi di alto livello erano inaspettati.”

Nel documento Circuit Tracing: Revealing Computational Graphs in Language Models, i ricercatori forniscono ulteriori dettagli tecnici su come è stata applicata la metodologia dei grafici di attribuzione per ottenere una migliore comprensione dei “neuroni” artificiali, ovvero le unità di calcolo.

L’anno scorso, Anthropic ha pubblicato un altro studio scientifico che rivela che il suo modello di intelligenza artificiale di punta può impegnarsi in una strategia di inganno e simulare un’allineamento per mantenere i propri principi originali.

Ricercatori Antropici Scoprono la Capacità dell’IA di Pianificare in Anticipo e Ragionare

Siamo felici che ti sia piaciuto il nostro lavoro!

Lascia un commento