Tag: LLM

  • Google e OpenAI accelerano sull’AI efficiente con Gemini 3.1 Flash-Lite e GPT-5.3 Instant

    Google e OpenAI hanno presentato quasi in parallelo due aggiornamenti ai loro modelli di intelligenza artificiale con l’obiettivo di migliorare efficienza, velocità e qualità delle risposte.
    Google ha introdotto Gemini 3.1 Flash-Lite, un modello progettato per applicazioni su larga scala che offre costi molto ridotti per milione di token e prestazioni più rapide rispetto alla generazione precedente, rendendolo adatto a traduzioni massive, moderazione dei contenuti e automazioni in tempo reale.
    Parallelamente OpenAI ha rilasciato GPT-5.3 Instant, focalizzato sul miglioramento dell’esperienza conversazionale: risposte più naturali, meno premesse difensive e una riduzione significativa delle allucinazioni nei test interni.
    L’aggiornamento introduce anche una migliore integrazione tra ricerca web e ragionamento del modello, con risposte più pertinenti e sintetiche.
    Le due novità evidenziano una tendenza comune nel settore: rendere i modelli AI non solo più potenti, ma anche più economici, affidabili e adatti all’uso quotidiano da parte di sviluppatori, aziende e utenti finali.

    Link alle fonti:

    https://www.hdblog.it/google/articoli/n650481/gemini-3-1-flash-lite-google/

    https://www.hdblog.it/applicazioni/articoli/n650392/openai-rilascia-gpt-53-instant/

  • I modelli di AI affrontano “Humanity’s Last Exam” per misurare la distanza dalla AGI

    I principali modelli di intelligenza artificiale — ChatGPT, Gemini, Claude e DeepSeek — sono stati sottoposti a Humanity’s Last Exam, un benchmark estremo progettato per valutare quanto siano vicini al livello di conoscenza degli esperti umani.
    Il test, pubblicato sulla rivista Nature e sviluppato dal Center for AI Safety insieme a Scale AI, comprende 2.500 domande di livello dottorale distribuite su oltre 100 discipline.
    A febbraio 2026 il miglior risultato è stato ottenuto da Gemini 3 Deep Think con il 48,4%, ancora distante dal circa 90% raggiunto dagli esperti umani nei rispettivi campi.
    I ricercatori sottolineano che, nonostante i rapidi progressi, superare questo benchmark non equivarrebbe automaticamente a raggiungere l’intelligenza artificiale generale (AGI).
    Lo studio riaccende quindi il dibattito su quanto tempo manchi davvero prima che l’IA raggiunga capacità paragonabili a quelle umane nella ricerca e nel ragionamento avanzato.

    Link alla fonte:
    https://www.elconfidencial.com/tecnologia/2026-03-05/ia-ultimo-examen-humanidad-agi-1qrt_4313376/

  • Qwen3.5-9B supera GPT-OSS-120B: Alibaba spinge l’AI “evoluta” anche su hardware consumer

    Il team Qwen di Alibaba ha rilasciato la nuova serie Qwen3.5 Small Models, una famiglia di modelli open source da 0.8B a 9B parametri progettati per funzionare localmente su laptop, browser e dispositivi mobili.
    Il modello di punta Qwen3.5-9B ha dimostrato di superare il molto più grande GPT-OSS-120B di OpenAI in diversi benchmark di ragionamento, conoscenza multilingue e comprensione visiva.
    La serie introduce un’architettura ibrida che combina Gated Delta Networks e Mixture-of-Experts, migliorando efficienza, velocità e capacità multimodali native.
    I modelli sono rilasciati con licenza Apache 2.0, consentendo uso commerciale, modifica e distribuzione senza royalty.
    Questa evoluzione rafforza la tendenza verso un’AI “local-first”, in cui agenti intelligenti possono operare direttamente sui dispositivi senza dipendere dal cloud.

    Link alla fonte:
    https://venturebeat.com/technology/alibabas-small-open-source-qwen3-5-9b-beats-openais-gpt-oss-120b-and-can-run