Tag: Risorse

TurboQuant di Google rivoluziona la “compressione AI” riducendo memoria e costi senza perdita di precisione

I ricercatori di Google Research presentano TurboQuant, un nuovo algoritmo di quantizzazione progettato per comprimere drasticamente i modelli AI senza perdita di accuratezza.

La tecnica combina due innovazioni — QJL e PolarQuant — per ridurre fino a 6 volte la memoria del key-value cache, migliorando al contempo velocità e prestazioni nei modelli linguistici.

TurboQuant riesce a operare con rappresentazioni a soli 3 bit mantenendo risultati equivalenti ai modelli non compressi, con accelerazioni fino a 8x su GPU.

Questo approccio ha implicazioni cruciali per il futuro della ricerca semantica e degli LLM su larga scala, rendendo possibile gestire enormi quantità di dati con maggiore efficienza. Il lavoro, che sarà presentato a ICLR 2026 e AISTATS 2026, rappresenta un avanzamento teorico e pratico nella compressione vettoriale.

Link alla fonte:

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression

Marzo 26, 2026
La Cina conquista terreno nella “valuta” dell’AI: i token

Le aziende cinesi come DeepSeek e MiniMax stanno superando i concorrenti statunitensi nella riduzione del consumo di token, l’unità chiave che misura l’uso e il costo dei modelli di intelligenza artificiale. Questo sorpasso segnala un cambiamento strutturale nella competizione globale, dove il prezzo per token diventa determinante soprattutto con la diffusione degli agenti AI, molto più esigenti in termini computazionali. Grazie a costi energetici più bassi e modelli più efficienti, le aziende cinesi offrono prezzi fino a sei volte inferiori rispetto a player come Anthropic, attirando sviluppatori e aumentando rapidamente l’adozione. Tuttavia, restano criticità legate a limiti infrastrutturali e a rischi geopolitici, in particolare sull’uso di data center cinesi. Il tema dei token emerge così come nuova leva strategica nella corsa verso l’AGI e il dominio dell’economia AI.

Link alla fonte:
https://www.ft.com/content/2567877b-9acc-4cf3-a9e5-5f46c1abd13e?syn-25a6b1a6=1

Marzo 26, 2026
Anthropic regala il doppio dei limiti. Generosità o… ingegneria?

Come annunciavo in un post precedente, dal 13 al 28 marzo, Claude raddoppia i limiti d’uso fuori dagli orari di punta (8–14 ET nei giorni feriali). Automaticamente, senza upgrade, per tutti i piani Free, Pro, Max e Team.

Bella mossa. Ma cosa c’è davvero dietro?

I datacenter hanno capacità fissa. Nelle ore di punta sono saturi. Nelle ore off-peak, quella potenza computazionale resta inutilizzata — un costo fisso che non si recupera. Regalare token in quelle fasce non costa quasi nulla in termini marginali. Ridistribuisce il carico, invece di aumentarlo.

È load balancing vestito da promozione.

Ma c’è di più. Questa iniziativa raccoglie dati preziosi: come cambiano i pattern d’uso quando i limiti vengono rimossi? Quali workflow emergono su Claude Code, Cowork, i plugin Office? Quanto vale davvero un piano senza tetto artificiale?

E tutto questo apre una domanda strategica: stiamo forse assistendo al test preliminare di un nuovo tier (pacchetto di abbonamento), basato su un piano “off-peak” o a crediti flessibili, a prezzo ridotto? OpenAI ci ha già provato con ChatGPT Go. Anthropic potrebbe avere in mente qualcosa di più sofisticato: non un piano minore, ma un modello di accesso legato all’orario, come le spot instances di AWS.

L’esclusione degli Enterprise dal promo non è un dettaglio: quei clienti hanno SLA garantiti e non possono essere soggetti a variabilità di throughput. Il confine è preciso.

La simmetria degli interessi è perfetta: Anthropic ottimizza i server, raccoglie dati comportamentali e riduce il churn. L’utente ottiene più spazio per esplorare il prodotto.

Win-win — a patto di capire le regole del gioco.

https://support.claude.com/en/articles/14063676-claude-march-2026-usage-promotion

Marzo 22, 2026