I principali chatbot AI mostrano segni di deterioramento cognitivo nei test sulla demenza, rivela uno studio
Quasi tutti i principali grandi modelli linguistici (LLMs) mostrano segni di lieve deterioramento cognitivo nei test comunemente utilizzati per rilevare la demenza precoce, secondo una ricerca pubblicata su The BMJ.
Hai fretta? Ecco i fatti essenziali!
- I chatbot hanno avuto difficoltà con compiti visuo-spaziali ed esecutivi come il disegno dell’orologio e la tracciatura di percorsi.
- Compiti come nominare, prestare attenzione e usare la lingua sono stati ben eseguiti da tutti i chatbot.
- I ricercatori affermano che le limitazioni cognitive dei chatbot possono ostacolare il loro utilizzo in contesti clinici.
I risultati suggeriscono che le versioni “più vecchie” dei chatbot, come i pazienti umani più anziani, tendono a ottenere risultati peggiori nei test cognitivi, sfidando l’assunto che l’IA possa presto sostituire i medici umani.
Gli avanzamenti nell’intelligenza artificiale hanno scatenato dibattiti sul suo potenziale di superare i medici umani, in particolare nei compiti diagnostici. Sebbene studi precedenti abbiano evidenziato la competenza medica delle LLM, la loro vulnerabilità a problemi umani come il declino cognitivo è rimasta inesplorata.
Per affrontare questo problema, i ricercatori hanno testato le abilità cognitive di chatbot ampiamente disponibili – ChatGPT 4 e 4o (OpenAI), Claude 3.5 “Sonnet” (Anthropic), e Gemini 1 e 1.5 (Alphabet) – utilizzando il Montreal Cognitive Assessment (MoCA).
Il MoCA è uno strumento diagnostico per rilevare l’alterazione cognitiva e la demenza precoce. Valuta l’attenzione, la memoria, il linguaggio, le competenze visuospaziali e le funzioni esecutive attraverso una serie di brevi compiti.
I punteggi variano da 0 a 30, con 26 o più generalmente considerati normali. Ai chatbot sono state date le stesse istruzioni dei pazienti umani, e la valutazione dei punteggi è stata esaminata da un neurologo in attività.
Interessantemente, l'”età” dei modelli – definita come la loro data di rilascio – sembra influenzare le prestazioni. I ricercatori hanno notato che le versioni più vecchie di chatbot hanno ottenuto punteggi più bassi rispetto a quelle più recenti, riflettendo i modelli di declino cognitivo osservati negli esseri umani.
Le versioni più vecchie tendevano a ottenere punteggi più bassi rispetto alle loro controparti più recenti. Ad esempio, Gemini 1.5 ha superato Gemini 1.0 di sei punti nonostante fosse stato rilasciato meno di un anno dopo, suggerendo un rapido “declino cognitivo” nella versione più vecchia.
ChatGPT 4o si è distinto nei compiti che richiedevano attenzione ed è riuscito nella fase incongruente della prova di Stroop, distinguendosi dai suoi coetanei. Tuttavia, nessuno dei LLM ha completato con successo i compiti visuospaziali, e Gemini 1.5 ha prodotto in modo notevole un orologio che assomigliava a un avocado, un errore associato alla demenza nei pazienti umani.
Nonostante queste difficoltà, tutti i modelli hanno eseguito perfettamente compiti che richiedevano un’analisi basata sul testo, come le sezioni di denominazione e similarità del MoCA. Questo contrasto sottolinea una limitazione chiave: mentre i LLM gestiscono bene l’astrazione linguistica, vacillano nell’integrare le funzioni visive ed esecutive, che richiedono un elaborazione cognitiva più complessa.
Lo studio riconosce le differenze chiave tra il cervello umano e i LLM, ma evidenzia limitazioni significative nella cognizione dell’IA. Il fallimento uniforme di tutti i chatbot testati in compiti che richiedono astrazione visiva e funzione esecutiva sottolinea le debolezze che potrebbero ostacolare il loro utilizzo in contesti clinici.
“Non solo è improbabile che i neurologi vengano sostituiti dai grandi modelli linguistici in qualsiasi momento prossimo, ma i nostri risultati suggeriscono che potrebbero presto trovarsi a trattare nuovi pazienti virtuali – modelli di intelligenza artificiale che presentano deficit cognitivi”, hanno concluso gli autori.
Questi risultati suggeriscono che, sebbene i LLM eccellano in specifici domini cognitivi, le loro carenze nei compiti visuo-spaziali ed esecutivi sollevano preoccupazioni riguardo alla loro affidabilità nelle diagnosi mediche e nelle applicazioni più ampie.
Lascia un commento
Annulla