Google DeepMind ha annunciato DiffusionGemma, un nuovo modello open source sperimentale che applica alla generazione di testo i principi dei modelli di diffusione già utilizzati con successo nella creazione di immagini.
A differenza degli LLM tradizionali, che producono testo un token alla volta, DiffusionGemma genera e raffina blocchi interi di contenuto in parallelo, elaborando fino a 256 token per passaggio e raggiungendo velocità fino a quattro volte superiori in scenari di utilizzo locale.
Basato sull’architettura Gemma 4 e su una configurazione Mixture of Experts da 26 miliardi di parametri, il modello attiva durante l’inferenza solo 3,8 miliardi di parametri, migliorando l’efficienza computazionale.
L’approccio consente inoltre di sfruttare l’attenzione bidirezionale, permettendo al sistema di valutare l’intero contesto durante la generazione e risultando particolarmente promettente per attività come editing, completamento di codice e applicazioni agentiche.
Pur offrendo prestazioni impressionanti su GPU moderne, DiffusionGemma resta un progetto sperimentale e presenta compromessi sulla qualità dell’output rispetto ai modelli Gemma standard, ma apre una possibile nuova direzione per l’evoluzione dell’intelligenza artificiale generativa.
Link alla fonte:
https://www.hwupgrade.it/news/web/diffusiongemma-sfida-gli-llm-tradizionali-generazione-parallela-e-fino-a-4-volte-piu-veloce-su-gpu_154694.html
