Tag: Inferenza

GTC 2026: Jensen Huang lancia l’era dell’inferenza, la partita da mille miliardi che ridefinisce l’AI

Al keynote della GTC 2026, il CEO di NVIDIA Jensen Huang ha dichiarato che l’intelligenza artificiale sta entrando nell’era dell’inferenza (inference inflection point).
Il valore non è più principalmente nella fase di training dei modelli, ma nel loro utilizzo su larga scala in produzione.
Huang ha annunciato una previsione aggiornata di almeno 1 trilione di dollari in ordini e ricavi dai sistemi Blackwell e Vera Rubin tra il 2025 e il 2027, raddoppiando le stime precedenti.
Il messaggio è chiaro: l’inferenza diventa il workload dominante, trasformando l’AI in un’infrastruttura industriale continua fatta di “token factories” e agentic AI.
Tra gli annunci principali, la nuova piattaforma full-stack Vera Rubin (con sette chip, Vera CPU e integrazione con Groq 3 LPU), i reference design per AI Factories e l’enfasi su efficienza, latenza e produzione costante di valore economico.
L’evento ridefinisce NVIDIA non più solo come fornitore di chip, ma come architetto di fabbriche AI su scala planetaria.

Link alla fonte:
https://www.cnbc.com/2026/03/16/nvidia-gtc-2026-ceo-jensen-huang-keynote-blackwell-vera-rubin.html

Aprile 1, 2026
Un nuovo “salto quantico” per l’hardware AI-oriented

Taalas lancia HC1, chip “hardcore” che promette inferenza 10x più veloce e più economica

La startup Taalas, fondata da Ljubisa Bajic, è uscita dalla “modalità stealth” presentando HC1, un chip ASIC “hardcore” che integra direttamente modello e pesi nel silicio stesso, eliminando la necessità della tradizionale programmazione via software.

Il primo caso d’uso è una versione ottimizzata di Llama 3.1 8B, con performance dichiarate fino a 10 volte superiori rispetto alle piattaforme di inferenza più veloci attuali e costi per token drasticamente inferiori rispetto alle GPU.

L’architettura punta sulla massima specializzazione: ogni chip è progettato per un singolo modello, con aggiornamenti possibili in circa due mesi tramite modifiche a due layer metallici.

I vantaggi in termini di velocità, consumi energetici e costi sono significativi, ma restano dubbi sulla scalabilità operativa e sulla gestione di più versioni hardware nei data center.

Se adottato su larga scala, l’approccio di Taalas potrebbe ridefinire l’economia dell’inferenza AI e inaugurare una nuova fase di specializzazione estrema nell’hardware per l’intelligenza artificiale.

Link alla fonte:

https://www.forbes.com/sites/karlfreund/2026/02/19/taalas-launches-hardcore-chip-with-insane-ai-inference-performance

Febbraio 24, 2026
L’ennesima prova che l’AI non è “intelligente”

Nel caso abbiate ancora dubbi sull’intelligenza e sulla capacità di comprensione dell’AI “generativa”, vi mostro l’ennesima prova che questi elementi, in sostanza, non esistono.

Si chiama “AI generativa” perché i modelli su cui si basa attualmente si limitano a generare contenuti seguendo pattern statistici, quindi anche quando vedere un “ragionamento” state osservando una fila di parole infilate una dopo l’altra secondo una serie di calcoli di affinità verbale dell’algoritmo (costruita durante l’addestramento).

La prova finale: un gruppo di ricercatori ha sottoposto ai modelli di fascia alta di ChatGPT e Gemini una serie di problemi che avevano risolto ma mai pubblicato (di conseguenza l’AI non poteva avere acquisito dei dati dalla loro “lettura”, che peraltro deve riguardare elementi individuati con una certa frequenza per ottenere la sua “attenzione”), e il risultato è stato che nessuno dei due modelli di punta è stato in grado di risolverli.

Si continua a parlare di AGI, di “agenti”, di “decisioni” da parte dell’AI e di sostituzione dell’essere umano, ma come ho spesso sottolineato finché non cambieranno gli algoritmi possiamo dimenticarci una vera “intelligenza” che dovrebbe essere alla base di tali scenari.

Febbraio 12, 2026
Microsoft presenta Maia 200: il chip a 3nm progettato per rivoluzionare l’inferenza AI

Microsoft ha annunciato Maia 200, un nuovo acceleratore di intelligenza artificiale sviluppato specificamente per l’inferenza, segnando un passaggio chiave dalla sperimentazione alla scalabilità operativa dell’AI.

Realizzato con processo produttivo a 3 nanometri da TSMC, il chip integra oltre 140 miliardi di transistor ed è ottimizzato per ridurre costi, latenza e consumi energetici rispetto all’hardware general-purpose.

Secondo l’azienda, Maia 200 offre un miglioramento del 30% nelle prestazioni per dollaro, consentendo di eseguire modelli generativi complessi con meno risorse.

Il chip sarà progressivamente integrato nell’infrastruttura di Microsoft Azure e nei servizi di Microsoft 365 Copilot, con l’obiettivo di rendere l’AI più sostenibile e accessibile su larga scala.

Link alla fonte:

https://www.adnkronos.com/tecnologia/microsoft-maia-200-il-nuovo-chip-per-linferenza-ai-a-3nm_3s3gsc7v70h2Ab1pUa3OhI

Gennaio 28, 2026
Il futuro dell’AI? L’economia dell’inferenza

Il vero valore e il futuro dei profitti nell’intelligenza artificiale aziendale non risiedono più nell’addestramento di modelli linguistici di grandi dimensioni (LLM), ma nell’inferenza, ovvero l’applicazione pratica e quotidiana di questi modelli ai dati reali delle organizzazioni.
Le previsioni di IDC indicano che entro la fine del 2025 gli investimenti nelle infrastrutture per l’inferenza supereranno quelli destinati all’addestramento, confermando un cambiamento epocale nelle priorità del settore.
La sfida cruciale per le aziende è l’integrazione dei modelli con il contesto aziendale e i dati proprietari, che costituiscono il vero vantaggio competitivo e prevengono le “allucinazioni” su larga scala.
Tecnologie come la Retrieval-Augmented Generation (RAG) e i database vettoriali stanno emergendo come soluzioni fondamentali per fornire memoria e contesto ai sistemi di intelligenza artificiale.
L’obiettivo strategico è rendere l’inferenza economica, sicura e ubiqua, ottimizzando i costi e garantendo la governance dei dati sensibili.

Fonte:
https://www.tomshw.it/business/altro-che-algoritmi-e-linferenza-il-reale-valore-dei-modelli-di-ia-2025-11-11

Novembre 12, 2025