Negli ultimi anni, lo sviluppo dei modelli linguistici ha segnato un cambiamento di rotta, privilegiando l’efficienza e la qualità dell’addestramento rispetto alla sola crescita dei parametri. L’architettura Transformer del 2017 ha aperto la strada, ma oggi l’attenzione si concentra su modelli più piccoli – i cosiddetti Small Language Models (SLM) – e su metodologie di training più sofisticate. I tre filoni chiave dell’innovazione sono la multimodalità, l’interazione con strumenti esterni e l’ottimizzazione delle tecniche di apprendimento. La nuova sfida consiste nel bilanciare struttura e cultura, puntando su un’intelligenza artificiale meno energivora ma altrettanto performante.
Link alla fonte:
https://24plus.ilsole24ore.com/art/le-nuove-strategie-sviluppo-ai-piu-cultura-che-dimensioni-modelli-AHpoirpB
Tag: Ottimizzazione
-
Verso modelli linguistici più “culturali”: meno parametri, più efficienza
-
Algoritmi speculativi accelerano i modelli linguistici fino a 3 volte
Un team di ricercatori del Weizmann Institute, Intel Labs e d-Matrix ha sviluppato algoritmi innovativi di “speculative decoding” per accelerare l’inferenza dei modelli linguistici fino a 2,8 volte senza perdita di qualità. Presentati all’ICML, gli algoritmi SLEM, TLI e SLRS eliminano la necessità di condividere il vocabolario tra modelli, migliorando l’efficienza del processo. SLEM, già adottato come default in Hugging Face, rappresenta una soluzione plug-and-play per ottimizzare le performance AI. La ricerca apre nuove prospettive per modelli più veloci e flessibili, anche su hardware meno potente.
Link alla fonte:
https://www.hwupgrade.it/news/web/modelli-linguistici-fino-a-3-volte-piu-veloci-non-serve-avere-una-mega-gpu_141232.html
