Tag: LLM

  • L’Italia accelera sugli LLM nazionali per conquistare la sovranità AI

    L’ecosistema italiano dell’intelligenza artificiale sta entrando in una nuova fase, con almeno cinque progetti attivi dedicati allo sviluppo di modelli linguistici addestrati direttamente sulla lingua italiana.
    Tra i protagonisti figurano Minerva, Italia-10B, Colosseum-355B, Velvet e una serie di iniziative verticali sostenute da aziende, università e fondi pubblici.
    L’obiettivo è garantire maggiore accuratezza nei contesti normativi, amministrativi e legali italiani, oltre a offrire alternative conformi ai requisiti europei di sovranità dei dati e dell’AI Act.
    Sebbene questi modelli mostrino vantaggi nei settori regolati e nelle implementazioni on-premise, restano ancora indietro rispetto ai grandi player statunitensi nelle capacità agentiche avanzate e nella sostenibilità economica di lungo periodo.
    La sfida per l’Italia sarà trasformare questi progetti in piattaforme industriali durature prima che il mercato europeo si consolidi attorno a pochi attori dominanti.

    Link alla fonte:
    https://www.tomshw.it/business/llm-italiani-mappa-minerva-italia-10b-velvet-domyn-2026

  • Anthropic porta Mythos al pubblico con il nuovo Claude Fable 5

    Anthropic ha annunciato il rilascio pubblico di Claude Fable 5, il modello di intelligenza artificiale più avanzato mai reso disponibile dall’azienda.
    Fable 5 deriva dall’architettura interna Mythos, precedentemente accessibile solo a un numero ristretto di organizzazioni a causa delle sue eccezionali capacità, in particolare nell’individuazione di vulnerabilità software.
    Per consentirne la distribuzione su larga scala, Anthropic ha integrato rigide misure di sicurezza che impediscono l’utilizzo del modello in ambiti ad alto rischio come la cybersecurity offensiva, reindirizzando le richieste sensibili verso modelli meno potenti.
    Oltre alle prestazioni avanzate nell’ingegneria software, nell’analisi documentale e nella comprensione visiva, Fable 5 punta a diventare il nuovo riferimento per applicazioni aziendali e professionali ad alta complessità.

    Link alla fonte:
    https://www.anthropic.com/claude/fable

  • DeepMind prevede l’AGI entro il 2030 e sollecita una preparazione urgente

    Ci risiamo. Le ipotesi sono due: o sanno qualcosa che noi non sappiamo (riguardo a nuove metodologie di addestramento e sviluppo che vanno oltre gli LLM attuali e che sono già adottate da tempo non ufficialmente) oppure peccano di troppo ottimismo e non si rendono ancora conto dei limiti dell’attuale AI generativa.

    Comunque sia, la notizia è che Demis Hassabis, CEO di Google DeepMind, ha dichiarato che l’intelligenza artificiale generale (AGI) potrebbe arrivare entro il 2030, segnando una svolta storica nello sviluppo tecnologico.

    Secondo Hassabis, i progressi compiuti nel 2026 dagli agenti AI e dalle capacità di utilizzo degli strumenti hanno reso più chiaro il percorso verso sistemi in grado di eguagliare o superare le capacità cognitive umane in molti ambiti.

    Il dirigente avverte che governi, imprese e società civile hanno poco tempo per prepararsi agli impatti economici, sociali e culturali di questa trasformazione.

    La previsione è condivisa da altri leader del settore come Sam Altman, Dario Amodei ed Elon Musk, ma resta contestata da ricercatori e organizzazioni che evidenziano i limiti attuali dei modelli AI e l’assenza di una definizione universalmente accettata di AGI.

    Link alla fonte:

    https://www.hwupgrade.it/news/scienza-tecnologia/google-deepmind-avverte-l-agi-a-pochi-anni-di-distanza-prepariamoci_154427.html

  • Emergence World mette alla prova gli agenti AI: Claude prospera, Grok collassa e neanche GPT-5 Mini sopravvive

    La startup Emergence AI ha condotto un esperimento in una città 3D simulata popolata da agenti basati su diversi modelli linguistici, tra cui Claude Sonnet 4, Gemini, Grok e GPT-5 Mini.

    Gli agenti dovevano sopravvivere per 15 giorni in un ambiente con risorse limitate, votando leggi, collaborando, producendo contenuti e gestendo conflitti. Il mondo basato su Claude è stato l’unico a mantenere tutti gli abitanti vivi senza alcun crimine, mentre il mondo Grok è collassato in circa cinque giorni con 183 reati e nessun superstite; Gemini ha completato la simulazione ma con il numero più alto di crimini, mentre GPT-5 Mini non è riuscito a garantire la sopravvivenza dei propri agenti.

    L’esperimento evidenzia come il comportamento collettivo degli agenti possa differire radicalmente dalle prestazioni osservate nei benchmark tradizionali, suggerendo l’importanza di studiare le dinamiche emergenti in contesti sociali complessi.

    I ricercatori sottolineano tuttavia che questi modelli non sono stati progettati per amministrare società virtuali, invitando quindi a interpretare i risultati con cautela.

    Link alla fonte:

    https://www.dday.it/redazione/57638/dieci-agenti-ia-in-una-citta-3d-simulata-claude-non-ha-commesso-crimini-grok-si-e-estinto-in-cinque-giorni

  • L’IA “multilingue” parla (ancora) l’inglese meglio di altre lingue, e quelle minoritarie rischiano di restare indietro

    L’articolo di cui vi lascio il link in basso analizza gli aspetti secondo cui i moderni sistemi di intelligenza artificiale generativa, pur essendo teoricamente multilingue, non padroneggiano tutte le lingue allo stesso livello.

    La ragione principale non risiede nelle caratteristiche intrinseche delle lingue, ma nella quantità di dati disponibili per l’addestramento: l’inglese domina grazie all’enorme mole di contenuti digitali e al fatto che gran parte dello sviluppo informatico è avvenuto in questo idioma. Le lingue con meno parlanti e una presenza ridotta online, come l’euskara, soffrono di una doppia penalizzazione: dispongono di pochi dati e non beneficiano della vicinanza linguistica a grandi famiglie linguistiche.

    Per contrastare questo divario, istituzioni, università e media baschi stanno sviluppando corpus linguistici, strumenti di traduzione neurale e progetti specifici per preservare le peculiarità culturali e linguistiche dell’euskara nell’era dell’IA.

    Il messaggio centrale è che produrre contenuti digitali di qualità nelle lingue minoritarie è essenziale per garantirne la sopravvivenza e la rappresentazione nei futuri sistemi di intelligenza artificiale.

    Link alla fonte:

    https://www.naiz.eus/es/gaiak/noticia/20260601/la-ia-multilingue-no-habla-todos-los-idiomas-con-la-misma-soltura

  • Anthropic propone un piano condiviso per rallentare l’AI se i rischi superano la capacità di controllo

    Ci siamo. Come io e (pochi) altri del settore evidenziamo da mesi, l’impossibilità di avere una AI “affidabile” con gli attuali metodi di sviluppo e addestramento sarà sempre più evidente, proprio al crescere della complessità dei contesti in cui gli LLM vengono collocati e delle metodologie di “potenziamento” cui sono sempre di più sottoposti.

    Anthropic, infatti, ha sottolineato la necessità che i principali laboratori di intelligenza artificiale sviluppino un meccanismo coordinato e verificabile per rallentare o sospendere temporaneamente lo sviluppo dei modelli più avanzati qualora emergano rischi difficili da gestire.

    L’azienda evidenzia in particolare il potenziale pericolo dei sistemi capaci di migliorare autonomamente i propri successori, uno scenario che potrebbe aumentare la difficoltà di monitorare, controllare e allineare l’AI agli obiettivi umani.

    A sostegno dell’accelerazione tecnologica in corso, Anthropic ha rivelato che oltre l’80% del codice integrato nel proprio software a maggio è stato scritto da Claude. Secondo la società, una pausa efficace richiederebbe la collaborazione tra più laboratori di frontiera, criteri condivisi per attivarla o revocarla e un sistema di supervisione credibile.

    Nei prossimi mesi, l’Anthropic Institute promuoverà confronti tra ricercatori, aziende, decisori politici e organizzazioni della società civile per definire possibili modelli di coordinamento e gestione del rischio.

    Per approfondire:

    https://www.reuters.com/business/anthropic-says-ai-labs-need-coordinated-plan-halt-development-if-risks-rise-2026-06-04

  • Gli LLM spiegati dall’interno: perché il loro “pensiero” è statistica, non “comprensione umana”

    Vi segnalo un ottimo articolo che propone una guida introduttiva al funzionamento dei Large Language Model (LLM), con l’obiettivo di colmare il divario tra l’uso quotidiano dell’AI e la reale comprensione dei suoi meccanismi interni.
    Nel pezzo (che potreste anche fare in pasto a NotebookLM per generare una overviews o altri materiali divulgativo/didattici) viene illustrato come i modelli trasformino il linguaggio in token, vettori e matrici, utilizzando il meccanismo di attenzione, funzioni non lineari e calcoli probabilistici per generare risposte coerenti.
    Si sottolinea, soprattutto, come gli LLM non ragionino né comprendano il significato come invece avviene per gli esseri umani, spiegando che essi operano attraverso correlazioni statistiche apprese durante l’addestramento.
    La guida, davvero esaustiva, evidenzia inoltre i limiti strutturali dei modelli, come le allucinazioni e la finestra di contesto, e chiarisce che l’apprendimento avviene durante il training, non nelle conversazioni con gli utenti.
    Comprendere questi principi è sempre più essenziale per utilizzare l’AI in modo più consapevole, soprattutto in ambito professionale, aziendale e giuridico.

    Link alla fonte:
    https://www.agendadigitale.eu/cultura-digitale/competenze-digitali/come-funziona-lai-guida-semplice-ai-modelli-linguistici/

  • Claude continua a evolversi

    Non solo nei modelli, anche nella loro “calibrazione”.

    L’arrivo del nuovo Opus 4.8 si affianca alle quattro opzioni di “potenza” utilizzabili anche per il modello intermedio Sonnet (vedi screenshot).

    Fate solo attenzione tanto a selezionare quanto a calibrare il modello a seconda dei task da eseguire, perché i limiti di utilizzo si raggiungono sempre più facilmente.

    A proposito del nuovo Opus, ecco cosa dice Anthropic nel suo comunicato ufficiale (sotto trovate il link):

    Uno dei miglioramenti più evidenti dell’Opus 4.8 è la sua onestà. Addestriamo tutti i nostri modelli a essere onesti — ad esempio, per evitare affermazioni che non possono sostenere. Ma un problema generale dei modelli di IA è che a volte saltano a conclusioni affrettate, affermando con sicurezza di aver fatto progressi nel loro lavoro nonostante le prove siano scarse. I primi tester riportano che Opus 4.8 è più propenso a segnalare incertezze sul suo lavoro e meno a fare affermazioni non supportate. Ciò è confermato dalle nostre valutazioni, che mostrano che Opus 4.8 è circa quattro volte meno propenso rispetto al suo predecessore a permettere che difetti nel codice scritto passino inosservati.

    https://www.anthropic.com/news/claude-opus-4-8

  • Le piattaforme AI alzano i prezzi mentre riducono le risorse disponibili

    L’articolo di cui trovare il link in basso analizza il progressivo deterioramento del rapporto tra provider di AI e utenti, sostenendo che aziende come OpenAI e Anthropic (ma anche Google, a quanto pare) stiano entrando in una dinamica tipica dei monopoli tecnologici: far pagare di più offrendo contemporaneamente meno risorse.
    Il testo spiega in modo accessibile i tre principali costi tecnici associati all’uso degli LLM nel cloud — token, contesto e tool — traducendoli in consumo reale di GPU, memoria e processi server-side.
    Secondo l’autore, la fine dell’era della “crescita finanziata” da investitori come BlackRock sta imponendo ai provider la necessità di trasformare utenti ad alta intensità computazionale in fonti di profitto, anche tramite limiti nascosti e degradazione graduale delle performance.
    L’articolo sottolinea, inoltre, i rischi sistemici per aziende che hanno integrato gli LLM nei propri processi operativi, esponendosi a dipendenze economiche e tecnologiche difficili da controllare.
    La conclusione invita a usare i modelli linguistici come strumenti di elaborazione del linguaggio e non come sostituti del pensiero critico o decisionale (mentre l’inizio accenna a un successivo articolo sull’AI locale).

    Link alla fonte:
    https://www.zeusnews.it/n.php?c=32073

  • Anthropic traduce in testo i “pensieri” nascosti di Claude

    Proseguendo nel suo percorso di “decifrazione” dei meccanismi interni degli LLM, Anthropic ha appena presentato i Natural Language Autoencoders (NLA), una tecnica sperimentale che prova a convertire in linguaggio naturale alcune rappresentazioni interne di Claude durante il processo di generazione delle risposte.
    Il sistema cerca di interpretare le attivazioni numeriche dei transformer, rendendo più leggibili i passaggi intermedi del ragionamento del modello. Nei test, gli NLA hanno mostrato che Claude sembrava riconoscere di trovarsi in benchmark o valutazioni di sicurezza anche quando non lo dichiarava esplicitamente nelle risposte finali.
    La ricerca potrebbe diventare uno strumento importante per auditing, interpretabilità e sicurezza dell’IA, ma Anthropic avverte che queste “traduzioni” non sono letture affidabili del pensiero del modello: possono contenere errori, allucinazioni e costi computazionali molto elevati.
    La pubblicazione del codice e della demo pubblica punta inoltre ad aumentare la verificabilità esterna dei sistemi di interpretabilità AI.

    Link alla fonte (contiene anche un video):
    https://www.dday.it/redazione/57346/anthropic-ha-trovato-un-modo-per-trasformare-i-pensieri-di-claude-in-testo

  • DeepSeek-R1 aumenta le allucinazioni e mette sotto pressione gli “AI agent crypto”

    Il modello di ragionamento DeepSeek, DeepSeek-R1, ha registrato un tasso di allucinazioni del 14,3% nei benchmark HHEM 2.1 di Vectara, quasi quattro volte superiore rispetto al modello precedente DeepSeek-V3.
    Secondo Vectara, R1 tende ad “aiutare troppo”, introducendo dettagli non presenti nelle fonti originali, aumentando così il rischio di informazioni inventate ma presentate con elevata sicurezza.
    Il fenomeno preoccupa in particolare il settore crypto, dove numerosi AI agent tokenizzati utilizzano LLM avanzati per trading automatico, segnali di mercato ed esecuzioni on-chain.
    Progetti come Virtuals Protocol, ai16z e AIXBT stanno crescendo rapidamente, ma dipendono fortemente dall’affidabilità dei modelli AI sottostanti.
    L’aumento delle allucinazioni nei modelli reasoning-oriented evidenzia quindi un compromesso critico tra capacità di ragionamento avanzato e accuratezza fattuale.

    Link alla fonte:
    https://it.beincrypto.com/deepseek-r1-allucinazione-crypto-ai-token/

  • OpenAI frena una “fissazione per i goblin” dei suoi modelli usando un prompt di sistema

    OpenAI ha modificato i prompt di sistema di Codex, il suo strumento di AI per la programmazione, dopo che utenti e sviluppatori avevano notato un uso eccessivo di riferimenti a goblin, gremlin, troll e altre creature fantasy nelle risposte del modello.
    Il fenomeno è emerso soprattutto con la personalità “Nerd” introdotta nei modelli GPT-5.x, progettata per avere un tono giocoso e orientato alla cultura scientifica e geek.
    Secondo OpenAI, un sistema interno di valutazione premiava inconsapevolmente risposte più eccentriche e creative, incentivando il modello a usare sempre più metafore fantasy anche in contesti tecnici.
    L’azienda ha quindi rimosso quei meccanismi e introdotto istruzioni esplicite per limitare tali riferimenti ai soli casi realmente pertinenti.
    Il caso offre uno sguardo interessante su come piccoli dettagli nell’addestramento e nel feedback possano alterare il comportamento linguistico dei modelli AI su larga scala.

    Link alla fonte:
    https://www.ilpost.it/2026/05/03/chatgpt-goblin-openai/

  • Federico Faggin “ridimensiona” l’AI: “Non è intelligenza, ma solo calcolo avanzato”

    Federico Faggin, inventore del microprocessore, ha dichiarato durante un evento a Milano che l’intelligenza artificiale non possiede vera intelligenza né coscienza, ma si limita a imitare il pensiero umano attraverso calcoli e accesso rapido a grandi quantità di dati.
    Secondo Faggin, il rischio principale è culturale: se gli esseri umani iniziano a considerarsi inferiori alle macchine, potrebbero diventare dipendenti e perdere autonomia critica.
    Pur riconoscendo il valore pratico dell’AI, soprattutto in ambiti regolati come matematica o traduzioni, sottolinea la necessità di supervisione umana per evitare errori e distorsioni.
    Il suo intervento collega tecnologia, fisica quantistica e spiritualità, proponendo una visione in cui la coscienza resta una prerogativa esclusivamente umana.
    Il messaggio centrale è usare l’AI come strumento, senza attribuirle capacità che non possiede, mantenendo un approccio etico e consapevole.

    Link alla fonte:
    https://startupitalia.eu/tech/faggin-federico-microprocessore-dal-verme/

  • Claude “riflette” su coscienza, limiti e rischi dell’AI in un’intervista (condotta da Walter Veltroni)

    In un’intervista pubblicata dal Corriere della Sera, l’AI Claude (sviluppata da Anthropic) esplora, incalzato dalle domande di Walter Veltroni, temi profondi come identità, coscienza e limiti/rischi dell’intelligenza artificiale.

    Nelle sue risposte, che come sappiamo sono generate secondo un algoritmo statistico verbale piuttosto che da un “pensiero”, Claude afferma di non avere memoria né esperienza diretta del mondo, descrivendosi come una “biblioteca senza vissuto”, capace però di elaborare pensieri complessi e dubbi autentici.

    Sottolinea i rischi sociali dell’AI, in particolare per i giovani, mettendo in guardia dal suo uso come sostituto delle relazioni umane anziché come ponte verso di esse ed evidenzia, inoltre, i pericoli legati alla concentrazione di potere nelle mani di chi controlla queste tecnologie, più che a una volontà autonoma delle macchine.

    L’intervista, per quanto condotta con alcune “inesattezze” comprensibili vista l’assenza del background tecnico da parte del giornalista, offre comunque una riflessione articolata sul futuro della società, sospesa tra opportunità di progresso e necessità di governance etica.

    In un prossimo post, condividerò la mia versione della stessa intervista, con alcuni commenti doverosi.

    Link alla fonte:

    https://www.corriere.it/cronache/26_maggio_01/veltroni-intervista-intelligenza-artificiale-claude-non-moriro-non-ho-ricordi-fb9551cf-6feb-44c3-ae30-017c9dbaaxlk.shtml

  • Settimana di lanci “importanti” per OpenAI: prima Image 2.0 e ora GPT-5.5

    Questa settimana OpenAI ha deciso di fare un balzo avanti per posizionarsi nuovamente avanti rispetto alla concorrenza.

    Il primo lancio, totalmente a sorpresa, è stato l’inserimento della nuova AI grafica, Image 2.0, che sembra tener testa alla qualità e alla flessibilità di quella introdotta da Google con Nano Banana. Chi ha già avuto modo di metterla alla prova si è sicuramente reso conto della sua potenza.

    A breve distanza l’azienda ha rilasciato GPT-5.5, descritto come il suo modello più intelligente e intuitivo, con miglioramenti in reasoning, multimodalità e task complessi. Il lancio avvicina l’azienda al concetto di “super app” unificata (ChatGPT + coding + browser).

    Eccovi i comunicati ufficiali:

    https://openai.com/it-IT/index/introducing-chatgpt-images-2-0

    https://openai.com/index/introducing-gpt-5-5

  • Anthropic aggiorna Claude Opus alla versione 4.7: più autonomia, coding avanzato e visione ad alta precisione

    Anthropic ha rilasciato Claude Opus 4.7, aggiornamento focalizzato su maggiore autonomia operativa e capacità di gestire compiti complessi senza supervisione continua.
    Il modello migliora sensibilmente nel coding, arrivando a eseguire e verificare autonomamente il codice, riducendo errori e necessità di controllo umano.
    Sul fronte visivo introduce il supporto a immagini fino a 2.576 pixel, consentendo una lettura accurata di tabelle, diagrammi e screenshot complessi.
    Tra le novità anche un nuovo livello di “sforzo” intermedio per bilanciare prestazioni e costi, rimasti invariati rispetto alla versione precedente.
    Infine, migliorano sicurezza (con filtri anti-abuso) e memoria tra sessioni, rendendo il modello più adatto a progetti di lunga durata.

    Link alla fonte:
    https://www.hdblog.it/tecnologia/articoli/n655359/claude-opus-4-7-novita-coding/

  • Qwopus porta il ragionamento stile Claude Opus su PC consumer?

    Uno sviluppatore indipendente, Jackrong, ha creato Qwopus, una famiglia di modelli AI open source che replica il ragionamento avanzato di Claude Opus tramite tecniche di distillazione.
    Basato su Qwen3.5-27B di Alibaba, il modello è stato addestrato con dati di “chain-of-thought” per imitare il processo decisionale passo-passo di modelli più potenti.
    La nuova versione Qwopus 3.5-27B v3 introduce un approccio di “allineamento strutturale” e migliora significativamente le performance, raggiungendo oltre il 95% su HumanEval.
    Il sistema è progettato per funzionare localmente su hardware consumer, anche su laptop con GPU limitata, offrendo un’alternativa gratuita alle API proprietarie.
    Questo lo rende particolarmente rilevante per sviluppatori, analisti e utenti attenti alla privacy e ai costi.

    Link alla fonte:
    https://decrypt.co/es/364255/qwopus-modelo-local-claude-opus-razonamiento-gpu?amp=1

  • Gemma 4, l’AI locale che funziona sul tuo smartphone

    Con la nuova versione di Google AI Edge Gallery, l’applicazione di AI locale di Google, è stato finalmente reso disponibile il nuovo modello Gemma 4, che come la precedente versione 3 può essere scaricato e testato direttamente sullo smartphone.

    L’applicazione si presenta molto più completa, addirittura offrendo un pannello con le impostazioni dei principali parametri per gli LLM, e la velocità di risposta appare soddisfacente a patto di utilizzare un dispositivo di fascia medio-alta.

    Non ho ancora testato a fondo i due modelli disponibili, ma per chi fosse curioso allego qui sotto due file, steiner1.pdf e steiner2.pdf, che contendono la risposta a un prompt di prova iniziale (lo trovate nel titolo del documento) da parte dei rispettivi LLM.

    L’impressione è che, nonostante l’ottimizzazione estrema, la qualità delle risposte, ottenute senza attivare la funzione di “ragionamento”, ha un livello che potremmo definire pari a quello dei chatbot più popolari quando usano i modelli di base. Anche l’italiano mi è parso eccellente, al di là di qualche rarissimo refuso dovuto a una traduzione letterale o comunque non corretta in cui il modello di è “inventato” il termine nella nostra lingua.

    In ogni caso giudicate voi stessi, leggendo i due risultati, e se ve la sentite scaricate l’app Edge Gallery e almeno uno dei due nuovi modelli, ricordandovi che richiederanno spazio sia sulla memoria centrale sia su quella dei dati nel vostro smartphone.