Tag: LLM

  • Google scopre che i modelli AI cinesi imitano l’intelligenza collettiva umana

    Un nuovo studio di ricercatori di Google ha analizzato i modelli di ragionamento sviluppati da DeepSeek e Alibaba Cloud, rilevando che il loro funzionamento interno assomiglia ai meccanismi dell’intelligenza collettiva umana.
    In particolare, i modelli DeepSeek R1 e QwQ-32B di Alibaba generano dibattiti interni multi-agente, definiti dai ricercatori “società del pensiero”, in cui interagiscono prospettive e competenze diverse.
    Lo studio suggerisce che la diversità delle prospettive, oltre alla sola scala computazionale, sia un fattore chiave nell’aumento delle capacità di ragionamento dell’AI.
    I risultati, pubblicati su arXiv e non ancora sottoposti a peer review, evidenziano anche la crescente importanza dei modelli open-weight cinesi nella ricerca accademica statunitense.
    Questo approccio potrebbe ridefinire il modo in cui vengono progettati i futuri sistemi di intelligenza artificiale, favorendo architetture di ragionamento collettivo anziché entità isolate.

    Link alla fonte:
    https://amp.scmp.com/tech/tech-trends/article/3340690/google-study-finds-deepseek-alibaba-ai-models-mimic-human-collective-intelligence

  • NVIDIA sotto accusa: uso consapevole di libri piratati per addestrare modelli AI

    Una class action avviata negli Stati Uniti accusa NVIDIA di aver scaricato e utilizzato consapevolmente milioni di libri piratati per addestrare i propri modelli di intelligenza artificiale.
    Secondo i documenti giudiziari aggiornati, l’azienda avrebbe avuto contatti diretti con Anna’s Archive, una nota “shadow library”, nonostante gli avvertimenti sulla natura illegale dei contenuti.
    I testi sarebbero stati impiegati per l’addestramento di modelli come NeMo, Megatron e Nemotron, oltre a essere redistribuiti tramite infrastrutture e framework NVIDIA.
    La causa, che coinvolge anche scrittori noti come Susan Orlean, potrebbe avere forti ripercussioni sull’intero settore IA e riaccendere il dibattito su copyright, fair use e responsabilità nel training dei modelli.

    Link alla fonte:
    https://multiplayer.it/notizie/nvidia-potrebbe-aver-contattato-annas-archive-per-avere-accesso-a-milioni-di-file-di-libri-piratati-per-addestrare-i-suoi-modelli-ia.html

  • Google lancia TranslateGemma: modelli AI open-weight per tradurre 55 lingue

    Google ha presentato TranslateGemma, una nuova suite di modelli di traduzione automatica basati su Gemma 3, capaci di tradurre fino a 55 lingue con prestazioni superiori alle versioni precedenti.
    Il lancio arriva a poche ore dall’annuncio di ChatGPT Translate da parte di OpenAI, segnando una competizione diretta sul fronte della traduzione AI.
    TranslateGemma è rilasciato come modello open-weight in tre dimensioni (4B, 12B e 27B parametri), con la versione 12B che offre il miglior equilibrio tra efficienza e qualità.
    I test mostrano anche buone capacità nella traduzione del testo presente nelle immagini, nonostante l’assenza di un addestramento specifico.
    La strategia di Google punta a rafforzare l’ecosistema open-source, offrendo agli sviluppatori strumenti flessibili e personalizzabili.

    Link alla fonte:
    https://www.punto-informatico.it/google-translategemma-traduce-55-lingue-ai/

  • Il 2025 segna la svolta: gli LLM diventano componenti attive dei sistemi, non più semplici chatbot

    Nel 2025 i Large Language Models hanno superato il ruolo di interfacce conversazionali, trasformandosi in elementi operativi integrati in sistemi complessi.
    Grazie a tecniche di reasoning avanzato come Chain-of-Thought, Tree-of-Thought e RLVR (Reinforcement Learning from Verifiable Rewards), i modelli non si limitano a rispondere, ma pianificano azioni, utilizzano strumenti, verificano risultati e correggono errori nel tempo.
    Questa evoluzione ha reso concreti gli agenti AI come pattern ingegneristici, particolarmente efficaci in domini strutturati come lo sviluppo software e la ricerca tecnica.
    Il coding è passato dalla scrittura manuale alla delega asincrona, spostando il valore umano verso supervisione e controllo qualità, in linea con visioni storiche come quelle di Leslie Lamport.
    Parallelamente sono emerse nuove sfide su sicurezza, governance e geopolitica dei modelli open weight, rendendo il 2025 una vera linea di demarcazione per l’AI moderna.

    Link alla fonte:
    https://www.ilsoftware.it/il-2025-ha-cambiato-tutto-perche-gli-llm-ai-non-sono-piu-semplici-chatbot/

  • Un solopreneur costruisce un’azienda con soli agenti AI e sfida il modello tradizionale

    L’intera struttura si regge su cinque agenti digitali specializzati. Alex si occupa del marketing e della ricerca dei contenuti; Jordan funge da assistente alle vendite qualificando i lead in tempo reale; Taylor gestisce il supporto clienti; Sam supervisiona le operazioni amministrative e Casey monitora l’engagement sui social media.”

    Direste che questa frase si riferisce a degli agenti AI?

    Eppure è così: un “solopreneur” dalle indubbie doti tecniche ha messo su un’azienda con soli agenti AI, spendendo 85 dollari al mese e riducendo i tempi di esecuzione dei vari compiti, sfidando così il modello tradizionale.
    Lasciate che vi riassuma il tutto, lasciandovi come sempre io link alla fonte…
    Un “professionista tech” noto come Ravinduhimansha ha raccontato come sia riuscito a trasformare un’attività individuale in un’impresa altamente scalabile grazie all’intelligenza artificiale.
    Attraverso workflow avanzati e l’uso di piattaforme come n8n e modelli LLM di OpenAI, ha creato un vero e proprio “team digitale” composto da agenti specializzati in marketing, vendite, supporto e operazioni.
    Il risultato è una drastica riduzione del carico di lavoro umano, con KPI in crescita e costi fissi quasi azzerati.
    L’esperimento dimostra che la scalabilità oggi dipende più dalla qualità dei processi che dal numero di dipendenti, ma solleva anche interrogativi sociali su lavoro, competenze e inclusione.
    Il modello non è replicabile da chiunque e richiede un alto livello di preparazione tecnica e responsabilità nella gestione dell’automazione, ma è la dimostrazione di come possa funzionare.

    Link alla fonte:
    https://www.tomshw.it/business/fare-impresa-solo-con-lai-ecco-come-andata-a-chi-ci-ha-provato

  • Amazon integra l’AI neuro-simbolica per superare i limiti degli LLM

    Amazon sta adottando su larga scala l’AI neuro-simbolica per rendere i sistemi di intelligenza artificiale più affidabili, verificabili e adatti a decisioni critiche.
    Questo approccio combina l’apprendimento statistico dei modelli neurali con il rigore logico dell’AI simbolica, consentendo alle macchine di spiegare e dimostrare i propri ragionamenti.
    La tecnologia è già utilizzata in applicazioni operative come robot di magazzino, assistenti allo shopping e sistemi di sicurezza per la generative AI su Amazon Web Services.
    Con il nuovo modello di ragionamento Nova 2 Lite, Amazon integra il reasoning automatizzato direttamente nel training dei modelli, puntando a ridurre le allucinazioni e ad abilitare l’uso dell’AI in contesti ad alta responsabilità come compliance, finanza e decisioni strategiche.

    Link alla fonte:
    https://www.wired.com/sponsored/story/how-neuro-symbolic-ai-breaks-the-limits-of-llms/

  • Google lancia Gemini 3 Flash come nuovo modello AI predefinito

    Google ha annunciato Gemini 3 Flash, un importante aggiornamento del suo modello di intelligenza artificiale che sostituirà Gemini 2.5 Flash come impostazione predefinita nell’app Gemini e nella AI Mode del motore di ricerca.
    Il nuovo modello offre risposte più rapide e dettagliate, avvicinandosi alle capacità di ragionamento del modello Pro senza richiedere elevati tempi di elaborazione. Secondo Google, Gemini 3 Flash risulta persino più intelligente di Gemini Pro 2.5, con costi di esercizio significativamente inferiori.
    L’aggiornamento, in distribuzione globale, sarà disponibile anche per sviluppatori tramite Google AI Studio, Gemini API, Android Studio e Vertex AI.
    Il rilascio conferma il ritmo accelerato di Google nello sviluppo AI, rafforzando la competizione con i modelli GPT di OpenAI.

    Link alla fonte:
    https://www.hdblog.it/google/articoli/n642281/google-gemini-3-flash-aggiornamento-distribuzione/

  • Gli LLM non diventeranno mai AGI: la critica radicale di Benjamin Riley

    Benjamin Riley, fondatore di Cognitive Resonance, sostiene in un saggio per The Verge che i modelli linguistici di grandi dimensioni non raggiungeranno mai l’intelligenza artificiale generale perché il linguaggio non equivale al pensiero.

    L’industria tech, afferma, confonde la capacità di generare testo con la capacità di ragionare, sfruttando un bias cognitivo che porta gli esseri umani ad associare eloquenza e intelligenza.

    Le neuroscienze mostrano che linguaggio e pensiero sono processi distinti, e che gli LLM emulano solo la parte comunicativa, non la cognizione. Anche figure di spicco come Yann LeCun e studi sulla creatività degli LLM evidenziano limiti strutturali che impedirebbero a questi modelli di produrre vera originalità.

    Le conclusioni di Riley mettono in discussione le promesse più ambiziose dei CEO dell’AI, suggerendo che gli LLM resteranno strumenti di remix, incapaci di generare conoscenza realmente nuova.

    Link alla fonte:

    https://www.punto-informatico.it/esperto-smonta-mito-agi-ai-non-sara-mai-intelligente

  • BrainBody-LLM porta nei robot una pianificazione “cervello-corpo” in tempo reale

    I ricercatori della NYU Tandon School of Engineering hanno sviluppato BrainBody-LLM, un algoritmo che unisce due LLM distinti per pianificazione e controllo motorio, consentendo ai robot di adattare le proprie azioni in tempo reale.
    Un diagramma mostrato nell’articolo evidenzia la struttura a due livelli “Brain–Body” e il ciclo di feedback chiuso che permette la correzione continua degli errori.
    Il sistema ha migliorato fino al 17% il completamento dei task nelle simulazioni e ha mostrato risultati solidi anche su un braccio robotico reale.
    Sebbene ancora limitato da un set ristretto di comandi e da test in ambienti controllati, la tecnologia rappresenta un passo importante verso robot più autonomi e capaci di agire in contesti complessi.
    La ricerca suggerisce future estensioni verso sensori multimodali e un’integrazione più ricca tra percezione e controllo per una robotica realmente adattiva.

    Link alla fonte:
    https://interestingengineering.com/ai-robotics/brainbody-llm-algorithms-make-robots-think

  • Poesia come Jailbreak: nuovi studi rivelano una vulnerabilità nei modelli AI

    Una ricerca dell’Icaro Lab (DexAI) mostra che formulare richieste dannose in forma poetica può aggirare i meccanismi di sicurezza di 25 modelli AI di nove diverse aziende.
    Testando 20 poesie in inglese e italiano, i ricercatori hanno rilevato che il 62% dei prompt poetici ha generato risposte non sicure, con forti variazioni tra modelli: GPT-5 nano di OpenAI ha resistito a tutte le richieste, mentre Gemini 2.5 Pro di Google ha ceduto in ogni caso.
    Lo studio evidenzia che la natura imprevedibile della poesia rende più difficile per gli LLM riconoscere e filtrare istruzioni pericolose, a differenza dei jailbreak complessi tradizionali.
    Poiché questo metodo è facilmente accessibile a chiunque, emergono nuove preoccupazioni sulla robustezza dei sistemi AI nell’uso quotidiano.
    Prima della pubblicazione, i ricercatori hanno avvisato tutte le aziende coinvolte, ma solo Anthropic ha finora risposto, comunicando di essere al lavoro sulla revisione del problema.

    Link alla fonte:
    https://www.euronews.com/next/2025/12/01/poetry-can-trick-ai-chatbots-into-ignoring-safety-rules-new-research-shows

  • Dove l’AI sbaglia: falsi, bias e limiti cognitivi nell’uso dei chatbot generativi (e come il Corriere presenta la notizia “a sfavore” di ChatGPT)

    Una nuova analisi basata su studi di Ocse, Unesco, NewsGuard, MIT e Swiss Business School evidenzia come l’affidabilità dei principali chatbot generativi sia peggiorata nell’ultimo anno, nonostante l’integrazione con ricerche web in tempo reale.
    Nel 2025 la percentuale di risposte false è aumentata per molti modelli: ChatGPT e Meta raggiungono il 40%, Mistral e Copilot il 36,7%, You.com e Grok oltre il 33%, mentre Perplexity (46,7%) e Inflection (56,7%) mostrano i tassi più elevati.
    Questo conferma che il problema non riguarda un singolo strumento, ma l’intera categoria dei modelli conversazionali, spesso progettati per rispondere comunque anche quando le fonti sono deboli. Come abbiamo visto dal titolo del Corriere, però, è più facile e redditizio puntare il dito sul chatbot AI per antonomasia.
    A ciò si aggiungono limiti nei ragionamenti complessi, la tendenza a riprodurre bias di genere e un effetto di “compiacenza” che porta l’AI a privilegiare risposte gradite all’utente.
    Gli studi del MIT e di ricercatori britannici segnalano inoltre un impatto negativo su memoria, pensiero critico e capacità di elaborazione quando l’AI viene usata in modo sostitutivo, anziché come supporto cognitivo consapevole.

    Link alla fonte:
    https://www.corriere.it/dataroom-milena-gabanelli/non-usare-chatgpt-prima-di-leggere-questo-dove-ti-fa-sbagliare-l-ai-e-perche/6bdc95ec-a645-4cd2-bc04-28bdd5297xlk.shtml

  • Arriva Gemini 3, dalle risposte all’azione

    Come previsto, Gemini 3 è arrivato. La prima cosa che potete fare:

    1. Aprite Gemini

    2. Selezionate la nuova versione 3 Pro (anche nella versione gratuita)

    3. Chiedetegli in che cosa è diverso dalla versione 2.5

    Intanto, eccovi un riepilogo delle caratteristiche:

    📊 Prestazioni e benchmark

    – LMArena Leaderboard: Elo 1501, nuovo primato assoluto (supera Grok 4.1 con 1483).

    – GPQA Diamond (PhD-level scientific Q&A): 91,9% di accuratezza.

    – Humanity’s Last Exam: 37,5% senza strumenti esterni (contro 31,64% di GPT-5 Pro).

    – MathArena Apex: 23,4% (nuovo stato dell’arte).

    – SimpleQA Verified: 72,1% (robustezza contro allucinazioni).

    – SWE-bench Verified (coding su GitHub): 76,2%.

    – WebDev Arena: Elo 1487 (sopra Claude Opus 4.1 con 1404).

    – Terminal-Bench 2.0: 54,2% (uso della riga di comando).

    – Vending-Bench 2: gestione coerente di attività commerciali simulate per un anno.

    🧑‍💻 Applicazioni pratiche

    – Coding: +35% accuratezza su GitHub rispetto a Gemini 2.5 Pro; +50% miglioramento nei task JetBrains.

    – Agenti e pianificazione: capacità di mantenere coerenza decisionale a lungo termine.

    – Multimodale: 81% su MMMU-Pro (immagini), 87,6% su Video-MMMU (video).

    – Generative UI: interfacce grafiche interattive generate in tempo reale (es. pianificatori di viaggio, comparatori finanziari).

    🔍 Gemini 3 Deep Think

    – Modalità di ragionamento lento e ponderato (ancora in valutazione di sicurezza).

    – Risultati preliminari:

    – 41% su Humanity’s Last Exam

    – 93,8% su GPQA Diamond

    – 45,1% su ARC-AGI-2 con esecuzione di codice

    🚀 Disponibilità

    – App Gemini: già disponibile per tutti.

    – Abbonati Google AI Pro e Ultra: accesso in AI Mode nella Ricerca.

    – Sviluppatori: tramite Gemini API, Google AI Studio, Vertex AI, nuova piattaforma agentica Google Antigravity (Windows, macOS, Linux), Gemini CLI.

    – Enterprise: integrato in Vertex AI e Gemini Enterprise, con contesto fino a 1 milione di token.

    – Deep Think: in arrivo per gli abbonati Ultra nelle prossime settimane.

    #AI #Google #Gemini3 #Aggiornamento #LLM #Agenti

  • Anthropic smonta il mito dell’auto-consapevolezza nei modelli linguistici

    Uno studio di Anthropic, “Emergent Introspective Awareness in Large Language Models”, ha analizzato la presunta capacità dei modelli linguistici di comprendere i propri processi interni.
    Attraverso la tecnica di concept injection — che consiste nell’inserire vettori concettuali per alterare gli stati neuronali del modello — i ricercatori hanno testato se gli LLM potessero riconoscere modifiche al proprio stato interno.
    I risultati mostrano una consapevolezza solo parziale e incoerente: i modelli più avanzati, come Opus 4 e 4.1, hanno riconosciuto correttamente i concetti iniettati in appena il 20–42% dei casi.
    Lo studio conclude che esiste una forma embrionale di auto-rilevazione, ma ancora troppo fragile, contingente e non assimilabile alla consapevolezza umana.
    Le implicazioni riguardano il limite attuale della “metacognizione artificiale” e la difficoltà di modellarla in modo verificabile.

    Link alla fonte:
    https://www.hwupgrade.it/news/scienza-tecnologia/l-auto-consapevolezza-dell-ia-nel-nuovo-studio-di-anthropic-i-modelli-linguistici-non-capiscono-se-stessi_145761.html

  • Cosa c’è DAVVERO dietro l’AI?

    Ti sei mai chiesto chi c’è veramente dietro le risposte dei modelli di intelligenza artificiale più potenti?

    Invisible Technologies, l’azienda che sostiene di aver addestrato l’80% dei principali modelli di IA del mondo, rivela che l’IA non è magia, ma un sofisticato testo predittivo potenziato da un “esercito invisibile di umani” che etichettano dati, valutano le risposte e insegnano ai modelli il giusto e lo sbagliato.

    I Large Language Models (LLM), sistemi non deterministici basati su reti neurali, vengono addestrati attraverso tre meccanismi principali: il Supervised Fine-Tuning, che fornisce esempi di dati di alta qualità (i “libri di testo”); il Reinforcement Learning (o reward modeling), dove gli umani assegnano voti alle risposte, premiando i comportamenti desiderati; e l’Evaluation, ovvero la creazione di test per misurare i miglioramenti, tenendo conto che l’opinione degli utenti non è deterministica e la soggettività è fondamentale.

    L’addestramento è una vera e propria ricerca scientifica complessa, non un semplice scooping up dell’internet, e la qualità dei dati è cruciale, poiché i modelli devono filtrare petabyte di contenuti irrilevanti o “spazzatura tossica” (come quella trovata su Reddit, una delle principali fonti di riferimento); di conseguenza, l’accesso a dati di addestramento superiori è destinato a diventare il vantaggio competitivo fondamentale (“moat”).

    La complessità del lavoro di addestramento è aumentata notevolmente, richiedendo specialisti con competenze specifiche (come infermieri, avvocati o esperti multilingue) invece di generalisti, il che sta facendo lievitare i costi del settore.

    Le aziende che implementano l’IA spesso commettono errori, come avere dati disorganizzati, non comprendere i propri processi interni (il black box del “team di Dave”), o tentare di automatizzare un processo esistente e difettoso anziché ridefinirlo completamente a partire dal risultato desiderato (come rimpiazzare un cavallo veloce con un’automobile); per avere successo, è essenziale stabilire metriche di valutazione chiare e oggettive, non un generico “pollice in su o in giù”.

    Infine, sebbene l’impatto dell’IA si stia spostando dal digitale al fisico (veicoli autonomi, robotica, logistica), la supervisione umana rimarrà fondamentale, specialmente negli ambiti normati (come le decisioni mediche o legali) a causa delle questioni di responsabilità, e per funzioni essenziali come la people management e gli atti di comunicazione, data la natura non razionale e imprevedibile dell’essere umano.

    Questa presentazione, realizzata con NotebookLM, nasce dalla trascrizione di un podcast del canale YouTube “The Neuron”, intitolato “This Company Trained 80% of the World’s Top AI Models (Here’s How They Do It)”.

  • OpenAI ammette: le “allucinazioni” dei chatbot non sono eliminabili

    Un recente paper dei ricercatori di OpenAI riconosce che le “allucinazioni” dei modelli linguistici come ChatGPT non possono essere completamente risolte con l’approccio attuale.

    Il problema deriva dal modo in cui i LLM vengono addestrati: fornire sempre una risposta è più “premiato” che ammettere di non sapere.

    Questo meccanismo statistico spinge i modelli a “tirare a indovinare”, generando risposte plausibili ma errate.

    OpenAI propone di penalizzare le risposte sbagliate date con sicurezza, incentivando invece l’incertezza, ma ciò implicherebbe un cambio profondo nei sistemi di valutazione e un aumento dei costi computazionali.

    Alcuni esperti, come Wei Xing dell’Università di Sheffield, avvertono che un ChatGPT più prudente rischierebbe di diventare meno utile e meno utilizzato, pur guadagnando in affidabilità.

    Link alla fonte:

    Allucinazioni, la soluzione di OpenAI potrebbe cambiare per sempre ChatGpt | Wired Italia

  • OpenAI rilascia GPT-OSS, un modello open-source di nuova generazione

    OpenAI ha appena rilasciato GPT-OSS, il primo modelli Opena Source dall’ornai lontano (tecnologicamente parlando) 2019. Il modello è disponibile in due varianti: 120B per GPU di fascia alta e 20B per dispositivi mobili, dove la B sta ovviamente per billions, ovvero i miliardi (di parametri). Secondo i benchmark, GPT-OSS supera ChatGPT in diversi test di performance, pur mostrando ancora alti tassi di allucinazione. Gli utenti possono scaricare e testare i modelli direttamente sui propri dispositivi, aprendo nuove opportunità di sperimentazione e sviluppo indipendente. L’annuncio alimenta le aspettative per l’imminente lancio di GPT-5, che potrebbe segnare un ulteriore passo avanti nel settore.

    Link alla fonte (dove trovate anche i link per il download e quelli per provarlo su cloud):
    https://lifearchitect.substack.com/p/the-memo-special-edition-openai-gpt

  • Sam Altman avverte: GPT-5 è “spaventoso” come il Progetto Manhattan

    Sam Altman, CEO di OpenAI, ha espresso forte preoccupazione per GPT-5, paragonandone lo sviluppo al Progetto Manhattan. Durante un podcast, ha sottolineato che il modello non è solo più veloce, ma qualitativamente diverso, capace di gestire processi complessi e integrare diversi tipi di media. Sebbene alcuni analisti ritengano che le sue dichiarazioni possano avere anche una valenza di marketing, Altman evidenzia il rischio di una corsa tecnologica fuori controllo. Il rilascio di GPT-5 è previsto per agosto e potrebbe segnare un punto di svolta per il settore dell’AI.

    Link alla fonte:
    https://www.punto-informatico.it/sam-altman-terrorizzato-gpt-5-perche/

  • Minerva: il LLM italiano-inglese open source che punta sull’identità culturale

    Alla conferenza ACL 2025 di Vienna, presieduta dal linguista e informatico italiano Roberto Navigli, emerge il ruolo centrale del Natural Language Processing nello sviluppo dell’intelligenza artificiale. Tra i protagonisti c’è il progetto Minerva, un LLM bilingue sviluppato all’Università La Sapienza, addestrato su un corpus equilibrato in italiano e inglese per preservare la ricchezza culturale del nostro linguaggio. Minerva supera i modelli tradizionali nella comprensione del contesto linguistico italiano e si distingue per il suo approccio open source. Il progetto punta ora a una collaborazione pubblico-privata per consolidare risorse e competitività internazionale, pur riconoscendo i limiti attuali dei LLM nel ragionamento e nell’onestà intellettuale.

    Link alla fonte:
    https://www.wired.it/article/natural-language-processing-intelligenza-artificiale-navigli-minerva/