Algoritmi speculativi accelerano i modelli linguistici fino a 3 volte

Un team di ricercatori del Weizmann Institute, Intel Labs e d-Matrix ha sviluppato algoritmi innovativi di “speculative decoding” per accelerare l’inferenza dei modelli linguistici fino a 2,8 volte senza perdita di qualità. Presentati all’ICML, gli algoritmi SLEM, TLI e SLRS eliminano la necessità di condividere il vocabolario tra modelli, migliorando l’efficienza del processo. SLEM, già adottato come default in Hugging Face, rappresenta una soluzione plug-and-play per ottimizzare le performance AI. La ricerca apre nuove prospettive per modelli più veloci e flessibili, anche su hardware meno potente.

Link alla fonte:
https://www.hwupgrade.it/news/web/modelli-linguistici-fino-a-3-volte-piu-veloci-non-serve-avere-una-mega-gpu_141232.html