Tag: DeepThinking

  • Arriva Gemini 3, dalle risposte all’azione

    Come previsto, Gemini 3 è arrivato. La prima cosa che potete fare:

    1. Aprite Gemini

    2. Selezionate la nuova versione 3 Pro (anche nella versione gratuita)

    3. Chiedetegli in che cosa è diverso dalla versione 2.5

    Intanto, eccovi un riepilogo delle caratteristiche:

    📊 Prestazioni e benchmark

    – LMArena Leaderboard: Elo 1501, nuovo primato assoluto (supera Grok 4.1 con 1483).

    – GPQA Diamond (PhD-level scientific Q&A): 91,9% di accuratezza.

    – Humanity’s Last Exam: 37,5% senza strumenti esterni (contro 31,64% di GPT-5 Pro).

    – MathArena Apex: 23,4% (nuovo stato dell’arte).

    – SimpleQA Verified: 72,1% (robustezza contro allucinazioni).

    – SWE-bench Verified (coding su GitHub): 76,2%.

    – WebDev Arena: Elo 1487 (sopra Claude Opus 4.1 con 1404).

    – Terminal-Bench 2.0: 54,2% (uso della riga di comando).

    – Vending-Bench 2: gestione coerente di attività commerciali simulate per un anno.

    🧑‍💻 Applicazioni pratiche

    – Coding: +35% accuratezza su GitHub rispetto a Gemini 2.5 Pro; +50% miglioramento nei task JetBrains.

    – Agenti e pianificazione: capacità di mantenere coerenza decisionale a lungo termine.

    – Multimodale: 81% su MMMU-Pro (immagini), 87,6% su Video-MMMU (video).

    – Generative UI: interfacce grafiche interattive generate in tempo reale (es. pianificatori di viaggio, comparatori finanziari).

    🔍 Gemini 3 Deep Think

    – Modalità di ragionamento lento e ponderato (ancora in valutazione di sicurezza).

    – Risultati preliminari:

    – 41% su Humanity’s Last Exam

    – 93,8% su GPQA Diamond

    – 45,1% su ARC-AGI-2 con esecuzione di codice

    🚀 Disponibilità

    – App Gemini: già disponibile per tutti.

    – Abbonati Google AI Pro e Ultra: accesso in AI Mode nella Ricerca.

    – Sviluppatori: tramite Gemini API, Google AI Studio, Vertex AI, nuova piattaforma agentica Google Antigravity (Windows, macOS, Linux), Gemini CLI.

    – Enterprise: integrato in Vertex AI e Gemini Enterprise, con contesto fino a 1 milione di token.

    – Deep Think: in arrivo per gli abbonati Ultra nelle prossime settimane.

    #AI #Google #Gemini3 #Aggiornamento #LLM #Agenti