Tag: Inferenza

  • GTC 2026: Jensen Huang lancia l’era dell’inferenza, la partita da mille miliardi che ridefinisce l’AI

    Al keynote della GTC 2026, il CEO di NVIDIA Jensen Huang ha dichiarato che l’intelligenza artificiale sta entrando nell’era dell’inferenza (inference inflection point).
    Il valore non è più principalmente nella fase di training dei modelli, ma nel loro utilizzo su larga scala in produzione.
    Huang ha annunciato una previsione aggiornata di almeno 1 trilione di dollari in ordini e ricavi dai sistemi Blackwell e Vera Rubin tra il 2025 e il 2027, raddoppiando le stime precedenti.
    Il messaggio è chiaro: l’inferenza diventa il workload dominante, trasformando l’AI in un’infrastruttura industriale continua fatta di “token factories” e agentic AI.
    Tra gli annunci principali, la nuova piattaforma full-stack Vera Rubin (con sette chip, Vera CPU e integrazione con Groq 3 LPU), i reference design per AI Factories e l’enfasi su efficienza, latenza e produzione costante di valore economico.
    L’evento ridefinisce NVIDIA non più solo come fornitore di chip, ma come architetto di fabbriche AI su scala planetaria.

    Link alla fonte:
    https://www.cnbc.com/2026/03/16/nvidia-gtc-2026-ceo-jensen-huang-keynote-blackwell-vera-rubin.html

  • Un nuovo “salto quantico” per l’hardware AI-oriented

    Taalas lancia HC1, chip “hardcore” che promette inferenza 10x più veloce e più economica

    La startup Taalas, fondata da Ljubisa Bajic, è uscita dalla “modalità stealth” presentando HC1, un chip ASIC “hardcore” che integra direttamente modello e pesi nel silicio stesso, eliminando la necessità della tradizionale programmazione via software.

    Il primo caso d’uso è una versione ottimizzata di Llama 3.1 8B, con performance dichiarate fino a 10 volte superiori rispetto alle piattaforme di inferenza più veloci attuali e costi per token drasticamente inferiori rispetto alle GPU.

    L’architettura punta sulla massima specializzazione: ogni chip è progettato per un singolo modello, con aggiornamenti possibili in circa due mesi tramite modifiche a due layer metallici.

    I vantaggi in termini di velocità, consumi energetici e costi sono significativi, ma restano dubbi sulla scalabilità operativa e sulla gestione di più versioni hardware nei data center.

    Se adottato su larga scala, l’approccio di Taalas potrebbe ridefinire l’economia dell’inferenza AI e inaugurare una nuova fase di specializzazione estrema nell’hardware per l’intelligenza artificiale.

    Link alla fonte:

    https://www.forbes.com/sites/karlfreund/2026/02/19/taalas-launches-hardcore-chip-with-insane-ai-inference-performance

  • L’ennesima prova che l’AI non è “intelligente”

    Nel caso abbiate ancora dubbi sull’intelligenza e sulla capacità di comprensione dell’AI “generativa”, vi mostro l’ennesima prova che questi elementi, in sostanza, non esistono.

    Si chiama “AI generativa” perché i modelli su cui si basa attualmente si limitano a generare contenuti seguendo pattern statistici, quindi anche quando vedere un “ragionamento” state osservando una fila di parole infilate una dopo l’altra secondo una serie di calcoli di affinità verbale dell’algoritmo (costruita durante l’addestramento).

    La prova finale: un gruppo di ricercatori ha sottoposto ai modelli di fascia alta di ChatGPT e Gemini una serie di problemi che avevano risolto ma mai pubblicato (di conseguenza l’AI non poteva avere acquisito dei dati dalla loro “lettura”, che peraltro deve riguardare elementi individuati con una certa frequenza per ottenere la sua “attenzione”), e il risultato è stato che nessuno dei due modelli di punta è stato in grado di risolverli.

    Si continua a parlare di AGI, di “agenti”, di “decisioni” da parte dell’AI e di sostituzione dell’essere umano, ma come ho spesso sottolineato finché non cambieranno gli algoritmi possiamo dimenticarci una vera “intelligenza” che dovrebbe essere alla base di tali scenari.