I principali modelli di intelligenza artificiale — ChatGPT, Gemini, Claude e DeepSeek — sono stati sottoposti a Humanity’s Last Exam, un benchmark estremo progettato per valutare quanto siano vicini al livello di conoscenza degli esperti umani.
Il test, pubblicato sulla rivista Nature e sviluppato dal Center for AI Safety insieme a Scale AI, comprende 2.500 domande di livello dottorale distribuite su oltre 100 discipline.
A febbraio 2026 il miglior risultato è stato ottenuto da Gemini 3 Deep Think con il 48,4%, ancora distante dal circa 90% raggiunto dagli esperti umani nei rispettivi campi.
I ricercatori sottolineano che, nonostante i rapidi progressi, superare questo benchmark non equivarrebbe automaticamente a raggiungere l’intelligenza artificiale generale (AGI).
Lo studio riaccende quindi il dibattito su quanto tempo manchi davvero prima che l’IA raggiunga capacità paragonabili a quelle umane nella ricerca e nel ragionamento avanzato.
Link alla fonte:
https://www.elconfidencial.com/tecnologia/2026-03-05/ia-ultimo-examen-humanidad-agi-1qrt_4313376/


