Un paper accademico intitolato “Hallucination Stations: On Some Basic Limitations of Transformer-Based Language Models” sostiene che gli AI agent basati su LLM siano “matematicamente incapaci” di gestire compiti agentici complessi in modo affidabile.
Gli autori, tra cui l’ex CTO di SAP Vishal Sikka, affermano che le allucinazioni sono una limitazione strutturale impossibile da eliminare del tutto, rendendo rischioso affidare agli agent compiti critici.
L’industria AI, tuttavia, non concorda: aziende e startup puntano su guardrail, verifica formale e sistemi ibridi per mitigare gli errori.
Il dibattito evidenzia una tensione centrale dell’AI moderna: gli agent sono allo stesso tempo inevitabili e imperfetti, destinati a crescere nonostante i limiti teorici.
La vera questione non è se funzioneranno senza errori, ma come cambieranno il lavoro umano e i processi decisionali.
Link alla fonte:
https://www.wired.com/story/ai-agents-math-doesnt-add-up/
Tag: AIAgentica
-
La “matematica” mette in dubbio il futuro degli agenti AI
-
Anthropic lancia Cowork: Claude diventa un “collega” operativo sul desktop
Anthropic ha annunciato Cowork, una nuova modalità di utilizzo di Claude pensata per portare l’AI oltre la semplice chat.
Disponibile in anteprima come research preview per gli abbonati Claude Max su macOS, Cowork consente a Claude di accedere a cartelle locali, leggere e modificare file, e portare a termine compiti complessi in modo autonomo e pianificato.
Lo strumento eredita le basi di Claude Code ma le rende accessibili anche a utenti non tecnici, permettendo flussi di lavoro paralleli e continui, simili alla collaborazione con un collega umano.
Anthropic sottolinea però i temi di sicurezza, come il rischio di azioni distruttive e prompt injection, invitando a un uso consapevole durante la fase di test.
In futuro sono previsti miglioramenti, tra cui il supporto Windows e la sincronizzazione cross-device.Link alla fonte:
https://claude.com/blog/cowork-research-preview -
OpenAI chiede ai contractor di caricare documenti di lavoro reali per testare gli agenti AI sul campo
OpenAI sta chiedendo a contractor esterni di caricare esempi concreti di lavori svolti in precedenti o attuali impieghi per valutare le prestazioni dei suoi agenti AI di nuova generazione.
L’obiettivo è creare una “baseline umana” su compiti professionali reali, da confrontare con le capacità dei modelli, come parte del percorso verso l’AGI.
Ai lavoratori viene richiesto di rimuovere dati personali, informazioni riservate e segreti aziendali, ma la responsabilità dello “scrubbing” resta in gran parte a loro.
Secondo esperti legali, questa pratica espone sia i contractor sia i laboratori AI a rischi di violazione di NDA e appropriazione indebita di segreti commerciali.
L’iniziativa evidenzia come i grandi AI lab stiano cercando dati sempre più realistici e di alta qualità per automatizzare il lavoro d’ufficio.Link alla fonte:
https://www.wired.com/story/openai-contractor-upload-real-work-documents-ai-agents/
