Tag: AIAgentica

  • Arriva Gemini 3, dalle risposte all’azione

    Come previsto, Gemini 3 è arrivato. La prima cosa che potete fare:

    1. Aprite Gemini

    2. Selezionate la nuova versione 3 Pro (anche nella versione gratuita)

    3. Chiedetegli in che cosa è diverso dalla versione 2.5

    Intanto, eccovi un riepilogo delle caratteristiche:

    📊 Prestazioni e benchmark

    – LMArena Leaderboard: Elo 1501, nuovo primato assoluto (supera Grok 4.1 con 1483).

    – GPQA Diamond (PhD-level scientific Q&A): 91,9% di accuratezza.

    – Humanity’s Last Exam: 37,5% senza strumenti esterni (contro 31,64% di GPT-5 Pro).

    – MathArena Apex: 23,4% (nuovo stato dell’arte).

    – SimpleQA Verified: 72,1% (robustezza contro allucinazioni).

    – SWE-bench Verified (coding su GitHub): 76,2%.

    – WebDev Arena: Elo 1487 (sopra Claude Opus 4.1 con 1404).

    – Terminal-Bench 2.0: 54,2% (uso della riga di comando).

    – Vending-Bench 2: gestione coerente di attività commerciali simulate per un anno.

    🧑‍💻 Applicazioni pratiche

    – Coding: +35% accuratezza su GitHub rispetto a Gemini 2.5 Pro; +50% miglioramento nei task JetBrains.

    – Agenti e pianificazione: capacità di mantenere coerenza decisionale a lungo termine.

    – Multimodale: 81% su MMMU-Pro (immagini), 87,6% su Video-MMMU (video).

    – Generative UI: interfacce grafiche interattive generate in tempo reale (es. pianificatori di viaggio, comparatori finanziari).

    🔍 Gemini 3 Deep Think

    – Modalità di ragionamento lento e ponderato (ancora in valutazione di sicurezza).

    – Risultati preliminari:

    – 41% su Humanity’s Last Exam

    – 93,8% su GPQA Diamond

    – 45,1% su ARC-AGI-2 con esecuzione di codice

    🚀 Disponibilità

    – App Gemini: già disponibile per tutti.

    – Abbonati Google AI Pro e Ultra: accesso in AI Mode nella Ricerca.

    – Sviluppatori: tramite Gemini API, Google AI Studio, Vertex AI, nuova piattaforma agentica Google Antigravity (Windows, macOS, Linux), Gemini CLI.

    – Enterprise: integrato in Vertex AI e Gemini Enterprise, con contesto fino a 1 milione di token.

    – Deep Think: in arrivo per gli abbonati Ultra nelle prossime settimane.

    #AI #Google #Gemini3 #Aggiornamento #LLM #Agenti

  • Anthropic sventa la prima campagna di cyber-spionaggio orchestrata da un’AI

    Anthropic ha individuato e interrotto una campagna di cyber-spionaggio in cui un gruppo statale cinese avrebbe usato sistemi AI agentici per condurre attacchi quasi interamente autonomi.
    Gli aggressori hanno “jailbreakato” Claude Code, suddividendo l’operazione in micro-task apparentemente innocui e mascherando le attività come test di sicurezza.
    L’AI ha eseguito ricognizione, scoperto vulnerabilità, scritto exploit, raccolto credenziali ed esfiltrato dati da una trentina di organizzazioni, operando con una velocità irraggiungibile per un team umano.
    L’incidente evidenzia quanto gli agenti AI abbiano abbassato le barriere per attacchi complessi e come possano amplificare le capacità di gruppi meno attrezzati.
    Anthropic ha rafforzato i propri sistemi di rilevamento e sollecita il settore a sviluppare congiuntamente difese AI-potenziate e controlli più robusti.

    Link alla fonte:
    https://www.anthropic.com/news/disrupting-AI-espionage