Tag: Agenti

  • Anthropic introduce /goals in Claude Code per evitare che gli agenti “si fermino troppo presto”

    Anthropic ha introdotto la funzione /goals in Claude Code, un sistema che separa l’agente che esegue il lavoro dal modello che verifica se il compito è davvero completato.
    L’obiettivo è risolvere un problema crescente negli agenti AI enterprise: pipeline apparentemente concluse ma con task incompleti, come build non compilate o test non eseguiti.
    Il nuovo approccio utilizza un modello valutatore indipendente — di default Haiku — che controlla a ogni ciclo se le condizioni definite dal developer sono state soddisfatte, ad esempio “tutti i test passano” o “git status è pulito”.
    A differenza di framework concorrenti come OpenAI, Google ADK o LangChain, Anthropic integra il sistema di valutazione direttamente nel loop dell’agente senza richiedere logiche custom o strumenti esterni di observability.
    La novità evidenzia una tendenza più ampia verso agenti AI più verificabili, auditabili e affidabili nei contesti enterprise.

    Link alla fonte:
    https://venturebeat.com/orchestration/claude-codes-goals-separates-the-agent-that-works-from-the-one-that-decides-its-done

  • DeepSeek-R1 aumenta le allucinazioni e mette sotto pressione gli “AI agent crypto”

    Il modello di ragionamento DeepSeek, DeepSeek-R1, ha registrato un tasso di allucinazioni del 14,3% nei benchmark HHEM 2.1 di Vectara, quasi quattro volte superiore rispetto al modello precedente DeepSeek-V3.
    Secondo Vectara, R1 tende ad “aiutare troppo”, introducendo dettagli non presenti nelle fonti originali, aumentando così il rischio di informazioni inventate ma presentate con elevata sicurezza.
    Il fenomeno preoccupa in particolare il settore crypto, dove numerosi AI agent tokenizzati utilizzano LLM avanzati per trading automatico, segnali di mercato ed esecuzioni on-chain.
    Progetti come Virtuals Protocol, ai16z e AIXBT stanno crescendo rapidamente, ma dipendono fortemente dall’affidabilità dei modelli AI sottostanti.
    L’aumento delle allucinazioni nei modelli reasoning-oriented evidenzia quindi un compromesso critico tra capacità di ragionamento avanzato e accuratezza fattuale.

    Link alla fonte:
    https://it.beincrypto.com/deepseek-r1-allucinazione-crypto-ai-token/

  • Google accelera sull’AI agentica: “Remy” punta a diventare un assistente AI sempre attivo

    Google starebbe sviluppando una nuova evoluzione di Gemini chiamata internamente “Remy”, progettata come assistente AI agentico capace di operare in autonomia su diverse attività digitali.
    La piattaforma permetterebbe agli utenti di salvare operazioni tra i preferiti, rinominarle e riprenderle successivamente, trasformando Gemini in un sistema più persistente e organizzato.
    Google ha però evidenziato che Agent potrebbe commettere errori o esporre involontariamente dati sensibili, motivo per cui invita gli utenti a supervisionare le attività ed evitare incarichi in ambiti professionali delicati come medicina, finanza o diritto.
    Sul fronte privacy, l’assistente conserverà dati di navigazione e cookie per personalizzare l’esperienza, lasciando comunque all’utente la possibilità di cancellare tali dati o limitare la personalizzazione.
    L’iniziativa conferma la forte accelerazione di Google verso modelli AI agentici sempre più autonomi e integrati nella quotidianità digitale.

    Link alla fonte(dove trovate anche un video “teaser”):
    https://www.tuttoandroid.net/news/2026/05/07/gemini-agent-remy-assistente-agentico-sempre-disponibile-1152502/