Blog

  • I modelli di AI affrontano “Humanity’s Last Exam” per misurare la distanza dalla AGI

    I principali modelli di intelligenza artificiale — ChatGPT, Gemini, Claude e DeepSeek — sono stati sottoposti a Humanity’s Last Exam, un benchmark estremo progettato per valutare quanto siano vicini al livello di conoscenza degli esperti umani.
    Il test, pubblicato sulla rivista Nature e sviluppato dal Center for AI Safety insieme a Scale AI, comprende 2.500 domande di livello dottorale distribuite su oltre 100 discipline.
    A febbraio 2026 il miglior risultato è stato ottenuto da Gemini 3 Deep Think con il 48,4%, ancora distante dal circa 90% raggiunto dagli esperti umani nei rispettivi campi.
    I ricercatori sottolineano che, nonostante i rapidi progressi, superare questo benchmark non equivarrebbe automaticamente a raggiungere l’intelligenza artificiale generale (AGI).
    Lo studio riaccende quindi il dibattito su quanto tempo manchi davvero prima che l’IA raggiunga capacità paragonabili a quelle umane nella ricerca e nel ragionamento avanzato.

    Link alla fonte:
    https://www.elconfidencial.com/tecnologia/2026-03-05/ia-ultimo-examen-humanidad-agi-1qrt_4313376/

  • Anthropic: blackout di Claude tra disservizi e tensioni con il Pentagono (e intanto OpenAI perde consensi, anzi guadagna dissenso)

    Claude.ai di Anthropic ha subito oggi un blackout che ha generato migliaia di segnalazioni e disagi per gli utenti, coinvolgendo sia il chatbot sia il servizio di coding Claude Code. L’azienda ha parlato di «errori significativi» in alcuni servizi, precisando che le API risultano operative mentre sono in corso indagini sulle cause del problema.
    L’episodio arriva in un momento delicato in cui Anthropic, guidata dal ceo Dario Amodei, avrebbe perso un contratto con il Pentagono dopo aver ribadito le proprie “linee rosse” contro l’uso militare dell’AI per sorveglianza di massa e armi autonome letali.
    Nel contempo, OpenAI ha annunciato un accordo con il Dipartimento della Difesa Usa, alimentando il dibattito sull’impiego bellico dell’intelligenza artificiale.
    Il blackout, pur critico sul piano operativo, ha riacceso l’attenzione su Claude nel confronto competitivo con ChatGPT, e sui social diversi utenti hanno invitato a “mollare” il chatbot di OpenAI dopo la notizia dell’intesa con il Pentagono, segnalando come le scelte etiche delle aziende stiano diventando un fattore sempre più rilevante nella percezione e nel posizionamento dei principali modelli AI.

    Link alla fonte:
    https://www.milanofinanza.it/news/claude-di-anthropic-in-blackout-utenti-nel-caos-202603021622045679

  • Qwen3.5-9B supera GPT-OSS-120B: Alibaba spinge l’AI “evoluta” anche su hardware consumer

    Il team Qwen di Alibaba ha rilasciato la nuova serie Qwen3.5 Small Models, una famiglia di modelli open source da 0.8B a 9B parametri progettati per funzionare localmente su laptop, browser e dispositivi mobili.
    Il modello di punta Qwen3.5-9B ha dimostrato di superare il molto più grande GPT-OSS-120B di OpenAI in diversi benchmark di ragionamento, conoscenza multilingue e comprensione visiva.
    La serie introduce un’architettura ibrida che combina Gated Delta Networks e Mixture-of-Experts, migliorando efficienza, velocità e capacità multimodali native.
    I modelli sono rilasciati con licenza Apache 2.0, consentendo uso commerciale, modifica e distribuzione senza royalty.
    Questa evoluzione rafforza la tendenza verso un’AI “local-first”, in cui agenti intelligenti possono operare direttamente sui dispositivi senza dipendere dal cloud.

    Link alla fonte:
    https://venturebeat.com/technology/alibabas-small-open-source-qwen3-5-9b-beats-openais-gpt-oss-120b-and-can-run