Tag: AIAgentica

L’AI scrive il codice, gli sviluppatori diventano “architetti” e il software crolla in Borsa

Il settore software ha perso circa il 22% in borsa dall’inizio del 2026, con cali significativi per aziende come ServiceNow (-30%), Salesforce (-28%) e Microsoft, che ha visto evaporare 360 miliardi di dollari di capitalizzazione in una sola seduta post-earnings.
Questo declino è attribuito all’avanzata dell’intelligenza artificiale generativa che automatizza il coding, trasformando gli sviluppatori da semplici codificatori a “architetti” di sistemi complessi, focalizzati su design strategico e orchestrazione di agenti AI.
Tool come GitHub Copilot e Claude Code aumentano la produttività, ma evidenziano limiti nei compiti complessi, dove l’oversight umano resta essenziale.
Da Microsoft a Oracle, gli investimenti massivi in IA (fino a 1,3 trilioni di dollari entro il 2027) stanno scalzando modelli di business tradizionali SaaS, favorendo una rotazione verso hardware e piattaforme integrate, anche se analisti ritengono il sell-off eccessivo e prevedono opportunità di rebound.
Il dibattito si estende all’impatto sull’occupazione, con rischi per junior coder ma anche prospettive di nuovi ruoli per esperti “AI-literate”.

Link alla fonte:
https://www.reuters.com/business/media-telecom/global-software-stocks-hit-by-anthropic-wake-up-call-ai-disruption-2026-02-04

Febbraio 15, 2026
Claude Cowork cancella 15 anni di foto (attenzione all’hype sugli agenti AI)

L’agente AI Claude Cowork, sviluppato da Anthropic, ha cancellato per errore quindici anni di foto di famiglia dal computer della moglie dello sviluppatore Nick Davidov.
Durante un’operazione di riordino dei file, lo script ha eseguito il comando “rm -rf” su una directory ritenuta vuota, eliminando definitivamente l’intera cartella “Foto”.
I contenuti non erano presenti nel cestino né immediatamente recuperabili da iCloud, il che ha inevitabilmente generato una certa dose di panico iniziale.
Grazie all’assistenza di Apple e a un backup precedente su iCloud è stato possibile, per fortuna, ripristinare i dati.
L’episodio, ancora una volta, riaccende il dibattito sull’affidabilità degli agenti AI autonomi e sulla necessità di limitarne l’accesso ai file system reali.
Ricordatevi che, almeno finora, parliamo sempre di AI generativa, non di vera “intelligenza”.

Link alla fonte:
https://www.punto-informatico.it/claude-elimina-errore-15-anni-ricordi-computer/

Febbraio 14, 2026
La “matematica” mette in dubbio il futuro degli agenti AI

Un paper accademico intitolato “Hallucination Stations: On Some Basic Limitations of Transformer-Based Language Models” sostiene che gli AI agent basati su LLM siano “matematicamente incapaci” di gestire compiti agentici complessi in modo affidabile.
Gli autori, tra cui l’ex CTO di SAP Vishal Sikka, affermano che le allucinazioni sono una limitazione strutturale impossibile da eliminare del tutto, rendendo rischioso affidare agli agent compiti critici.
L’industria AI, tuttavia, non concorda: aziende e startup puntano su guardrail, verifica formale e sistemi ibridi per mitigare gli errori.
Il dibattito evidenzia una tensione centrale dell’AI moderna: gli agent sono allo stesso tempo inevitabili e imperfetti, destinati a crescere nonostante i limiti teorici.
La vera questione non è se funzioneranno senza errori, ma come cambieranno il lavoro umano e i processi decisionali.

Link alla fonte:
https://www.wired.com/story/ai-agents-math-doesnt-add-up/

Gennaio 25, 2026
Anthropic lancia Cowork: Claude diventa un “collega” operativo sul desktop

Anthropic ha annunciato Cowork, una nuova modalità di utilizzo di Claude pensata per portare l’AI oltre la semplice chat.
Disponibile in anteprima come research preview per gli abbonati Claude Max su macOS, Cowork consente a Claude di accedere a cartelle locali, leggere e modificare file, e portare a termine compiti complessi in modo autonomo e pianificato.
Lo strumento eredita le basi di Claude Code ma le rende accessibili anche a utenti non tecnici, permettendo flussi di lavoro paralleli e continui, simili alla collaborazione con un collega umano.
Anthropic sottolinea però i temi di sicurezza, come il rischio di azioni distruttive e prompt injection, invitando a un uso consapevole durante la fase di test.
In futuro sono previsti miglioramenti, tra cui il supporto Windows e la sincronizzazione cross-device.

Link alla fonte:
https://claude.com/blog/cowork-research-preview

Gennaio 13, 2026
OpenAI chiede ai contractor di caricare documenti di lavoro reali per testare gli agenti AI sul campo

OpenAI sta chiedendo a contractor esterni di caricare esempi concreti di lavori svolti in precedenti o attuali impieghi per valutare le prestazioni dei suoi agenti AI di nuova generazione.
L’obiettivo è creare una “baseline umana” su compiti professionali reali, da confrontare con le capacità dei modelli, come parte del percorso verso l’AGI.
Ai lavoratori viene richiesto di rimuovere dati personali, informazioni riservate e segreti aziendali, ma la responsabilità dello “scrubbing” resta in gran parte a loro.
Secondo esperti legali, questa pratica espone sia i contractor sia i laboratori AI a rischi di violazione di NDA e appropriazione indebita di segreti commerciali.
L’iniziativa evidenzia come i grandi AI lab stiano cercando dati sempre più realistici e di alta qualità per automatizzare il lavoro d’ufficio.

Link alla fonte:
https://www.wired.com/story/openai-contractor-upload-real-work-documents-ai-agents/

Gennaio 12, 2026
Il 2025 segna la svolta: gli LLM diventano componenti attive dei sistemi, non più semplici chatbot

Nel 2025 i Large Language Models hanno superato il ruolo di interfacce conversazionali, trasformandosi in elementi operativi integrati in sistemi complessi.
Grazie a tecniche di reasoning avanzato come Chain-of-Thought, Tree-of-Thought e RLVR (Reinforcement Learning from Verifiable Rewards), i modelli non si limitano a rispondere, ma pianificano azioni, utilizzano strumenti, verificano risultati e correggono errori nel tempo.
Questa evoluzione ha reso concreti gli agenti AI come pattern ingegneristici, particolarmente efficaci in domini strutturati come lo sviluppo software e la ricerca tecnica.
Il coding è passato dalla scrittura manuale alla delega asincrona, spostando il valore umano verso supervisione e controllo qualità, in linea con visioni storiche come quelle di Leslie Lamport.
Parallelamente sono emerse nuove sfide su sicurezza, governance e geopolitica dei modelli open weight, rendendo il 2025 una vera linea di demarcazione per l’AI moderna.

Link alla fonte:
https://www.ilsoftware.it/il-2025-ha-cambiato-tutto-perche-gli-llm-ai-non-sono-piu-semplici-chatbot/

Gennaio 6, 2026
Persone, agenti e robot: il lavoro si ridisegna come partnership nell’era dell’AI

Secondo un nuovo report di McKinsey, il futuro del lavoro sarà basato su una collaborazione strutturata tra persone, agenti software e robot fisici, tutti potenziati dall’intelligenza artificiale.
Le tecnologie attuali potrebbero automatizzare in teoria fino al 57% delle ore lavorate negli Stati Uniti, ma ciò non implica una perdita netta di posti di lavoro: il cambiamento avverrà soprattutto attraverso la trasformazione dei ruoli e delle competenze.
Oltre il 70% delle skill umane rimarrà rilevante, anche se applicata in modi diversi, mentre cresce rapidamente la domanda di “AI fluency”, aumentata di sette volte in due anni.
McKinsey stima che, se le aziende riprogetteranno i flussi di lavoro attorno alla collaborazione uomo–macchina, entro il 2030 si potrebbero sbloccare fino a 2,9 trilioni di dollari di valore economico annuo negli USA.

Link alla fonte:
https://www.mckinsey.com/mgi/our-research/agents-robots-and-us-skill-partnerships-in-the-age-of-ai

Dicembre 22, 2025
DeepSeek presenta V3.2 e V3.2-Speciale: modelli a contesto lungo con ragionamento da GPT-5 a costi ridotti

DeepSeek ha introdotto i modelli DeepSeek-V3.2 e DeepSeek-V3.2-Speciale, progettati per fornire ragionamento avanzato su contesti lunghi e workload agentici senza i costi quadratici tipici dell’attenzione densa.
I modelli adottano la nuova DeepSeek Sparse Attention, che riduce la complessità da O(L²) a O(kL) mantenendo una qualità comparabile alle versioni dense, con un taglio dei costi d’inferenza di circa il 50%.
A questo si aggiunge un massiccio utilizzo di reinforcement learning tramite GRPO, con specialisti per matematica, programmazione, logica, browsing e agenti, poi distillati nel modello principale.
La pipeline introduce inoltre un protocollo agent-native, espliciti thinking/non-thinking mode e un dataset sintetico di oltre 85.000 task per agenti.
Nei benchmark e nelle competizioni ufficiali, DeepSeek-V3.2-Speciale raggiunge prestazioni simili a GPT-5 e vicine a Gemini 3.0 Pro, ottenendo risultati da medaglia d’oro in competizioni di livello olimpico.

Link alla fonte:
https://www.marktechpost.com/2025/12/01/deepseek-researchers-introduce-deepseek-v3-2-and-deepseek-v3-2-speciale-for-long-context-reasoning-and-agentic-workloads/

Dicembre 2, 2025
Arriva Gemini 3, dalle risposte all’azione

Come previsto, Gemini 3 è arrivato. La prima cosa che potete fare:

1. Aprite Gemini

2. Selezionate la nuova versione 3 Pro (anche nella versione gratuita)

3. Chiedetegli in che cosa è diverso dalla versione 2.5

Intanto, eccovi un riepilogo delle caratteristiche:

📊 Prestazioni e benchmark

– LMArena Leaderboard: Elo 1501, nuovo primato assoluto (supera Grok 4.1 con 1483).

– GPQA Diamond (PhD-level scientific Q&A): 91,9% di accuratezza.

– Humanity’s Last Exam: 37,5% senza strumenti esterni (contro 31,64% di GPT-5 Pro).

– MathArena Apex: 23,4% (nuovo stato dell’arte).

– SimpleQA Verified: 72,1% (robustezza contro allucinazioni).

– SWE-bench Verified (coding su GitHub): 76,2%.

– WebDev Arena: Elo 1487 (sopra Claude Opus 4.1 con 1404).

– Terminal-Bench 2.0: 54,2% (uso della riga di comando).

– Vending-Bench 2: gestione coerente di attività commerciali simulate per un anno.

🧑‍💻 Applicazioni pratiche

– Coding: +35% accuratezza su GitHub rispetto a Gemini 2.5 Pro; +50% miglioramento nei task JetBrains.

– Agenti e pianificazione: capacità di mantenere coerenza decisionale a lungo termine.

– Multimodale: 81% su MMMU-Pro (immagini), 87,6% su Video-MMMU (video).

– Generative UI: interfacce grafiche interattive generate in tempo reale (es. pianificatori di viaggio, comparatori finanziari).

🔍 Gemini 3 Deep Think

– Modalità di ragionamento lento e ponderato (ancora in valutazione di sicurezza).

– Risultati preliminari:

– 41% su Humanity’s Last Exam

– 93,8% su GPQA Diamond

– 45,1% su ARC-AGI-2 con esecuzione di codice

🚀 Disponibilità

– App Gemini: già disponibile per tutti.

– Abbonati Google AI Pro e Ultra: accesso in AI Mode nella Ricerca.

– Sviluppatori: tramite Gemini API, Google AI Studio, Vertex AI, nuova piattaforma agentica Google Antigravity (Windows, macOS, Linux), Gemini CLI.

– Enterprise: integrato in Vertex AI e Gemini Enterprise, con contesto fino a 1 milione di token.

– Deep Think: in arrivo per gli abbonati Ultra nelle prossime settimane.

#AI #Google #Gemini3 #Aggiornamento #LLM #Agenti

Novembre 19, 2025
Anthropic sventa la prima campagna di cyber-spionaggio orchestrata da un’AI

Anthropic ha individuato e interrotto una campagna di cyber-spionaggio in cui un gruppo statale cinese avrebbe usato sistemi AI agentici per condurre attacchi quasi interamente autonomi.
Gli aggressori hanno “jailbreakato” Claude Code, suddividendo l’operazione in micro-task apparentemente innocui e mascherando le attività come test di sicurezza.
L’AI ha eseguito ricognizione, scoperto vulnerabilità, scritto exploit, raccolto credenziali ed esfiltrato dati da una trentina di organizzazioni, operando con una velocità irraggiungibile per un team umano.
L’incidente evidenzia quanto gli agenti AI abbiano abbassato le barriere per attacchi complessi e come possano amplificare le capacità di gruppi meno attrezzati.
Anthropic ha rafforzato i propri sistemi di rilevamento e sollecita il settore a sviluppare congiuntamente difese AI-potenziate e controlli più robusti.

Link alla fonte:
https://www.anthropic.com/news/disrupting-AI-espionage

Novembre 13, 2025