L’articolo di cui vi lascio il link in basso analizza gli aspetti secondo cui i moderni sistemi di intelligenza artificiale generativa, pur essendo teoricamente multilingue, non padroneggiano tutte le lingue allo stesso livello.
La ragione principale non risiede nelle caratteristiche intrinseche delle lingue, ma nella quantità di dati disponibili per l’addestramento: l’inglese domina grazie all’enorme mole di contenuti digitali e al fatto che gran parte dello sviluppo informatico è avvenuto in questo idioma. Le lingue con meno parlanti e una presenza ridotta online, come l’euskara, soffrono di una doppia penalizzazione: dispongono di pochi dati e non beneficiano della vicinanza linguistica a grandi famiglie linguistiche.
Per contrastare questo divario, istituzioni, università e media baschi stanno sviluppando corpus linguistici, strumenti di traduzione neurale e progetti specifici per preservare le peculiarità culturali e linguistiche dell’euskara nell’era dell’IA.
Il messaggio centrale è che produrre contenuti digitali di qualità nelle lingue minoritarie è essenziale per garantirne la sopravvivenza e la rappresentazione nei futuri sistemi di intelligenza artificiale.
Link alla fonte:
