TurboQuant di Google rivoluziona la “compressione AI” riducendo memoria e costi senza perdita di precisione

I ricercatori di Google Research presentano TurboQuant, un nuovo algoritmo di quantizzazione progettato per comprimere drasticamente i modelli AI senza perdita di accuratezza.

La tecnica combina due innovazioni — QJL e PolarQuant — per ridurre fino a 6 volte la memoria del key-value cache, migliorando al contempo velocità e prestazioni nei modelli linguistici.

TurboQuant riesce a operare con rappresentazioni a soli 3 bit mantenendo risultati equivalenti ai modelli non compressi, con accelerazioni fino a 8x su GPU.

Questo approccio ha implicazioni cruciali per il futuro della ricerca semantica e degli LLM su larga scala, rendendo possibile gestire enormi quantità di dati con maggiore efficienza. Il lavoro, che sarà presentato a ICLR 2026 e AISTATS 2026, rappresenta un avanzamento teorico e pratico nella compressione vettoriale.

Link alla fonte:

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression