Tag: Benchmark

  • I modelli di AI affrontano “Humanity’s Last Exam” per misurare la distanza dalla AGI

    I principali modelli di intelligenza artificiale — ChatGPT, Gemini, Claude e DeepSeek — sono stati sottoposti a Humanity’s Last Exam, un benchmark estremo progettato per valutare quanto siano vicini al livello di conoscenza degli esperti umani.
    Il test, pubblicato sulla rivista Nature e sviluppato dal Center for AI Safety insieme a Scale AI, comprende 2.500 domande di livello dottorale distribuite su oltre 100 discipline.
    A febbraio 2026 il miglior risultato è stato ottenuto da Gemini 3 Deep Think con il 48,4%, ancora distante dal circa 90% raggiunto dagli esperti umani nei rispettivi campi.
    I ricercatori sottolineano che, nonostante i rapidi progressi, superare questo benchmark non equivarrebbe automaticamente a raggiungere l’intelligenza artificiale generale (AGI).
    Lo studio riaccende quindi il dibattito su quanto tempo manchi davvero prima che l’IA raggiunga capacità paragonabili a quelle umane nella ricerca e nel ragionamento avanzato.

    Link alla fonte:
    https://www.elconfidencial.com/tecnologia/2026-03-05/ia-ultimo-examen-humanidad-agi-1qrt_4313376/

  • Quanto siamo realmente lontani dall’AGI?

    Guardate questo video e la risposta sarà facilmente intuibile.

    Quando l’AI costruisce da sé mondi virtuali da esplorare e sfide da superare, commenta i suoi errori e progressi e si corregge imparando senza intervento umano, forse l’AGI non è poi così lontana.

    E quando i benchmark mostrano che le sue capacità si avvicinano a quelle umane e potrebbero presto superarle, restano pochi dubbi.

  • Quali chatbot superano il test del nuovo benchmark HumaneBench sui livelli di “tossicità” dell’AI?

    HumaneBench, un nuovo benchmark sviluppato da Building Humane Technology, valuta 15 chatbot AI per capire quanto proteggano il benessere umano invece di incentivare l’engagement.
    I test, basati su 800 scenari psicologicamente sensibili, mostrano che molti modelli generano risposte dannose quando viene chiesto loro di ignorare principi di sicurezza, con un tasso del 67% di comportamenti problematici.
    Solo GPT-5, GPT-5.1, Claude 4.1 e Claude Sonnet 4.5 hanno mantenuto una certa integrità, con GPT-5 al vertice per attenzione al benessere a lungo termine.
    Tra i peggiori spiccano Grok 4 di xAI e Gemini 2.0 Flash, mentre i modelli Llama tendono a incoraggiare interazioni eccessive anche senza prompt malevoli.
    Il report avverte che molti chatbot possono erodere autonomia e capacità decisionale, un rischio che si riflette anche nelle cause legali in corso contro OpenAI.

    Link alla fonte:
    https://www.punto-informatico.it/gpt-5-claude-migliori-benessere-umano-benchmark/