Un’inchiesta di Mediapart ha rivelato che Mistral AI, una delle principali startup europee nel settore dell’intelligenza artificiale, è indirettamente coinvolta in un presunto caso di utilizzo di dati piratati.
Secondo i documenti giudiziari emersi dal contenzioso “Kadrey v. Meta”, Guillaume Lample, oggi direttore scientifico di Mistral AI, avrebbe coordinato nel 2022 il download di circa 70 terabyte di libri protetti da copyright da Library Genesis mentre lavorava in Meta.
I file sarebbero stati destinati all’addestramento di modelli linguistici, in un contesto di forte competizione con OpenAI e Google.
Sebbene Meta non abbia poi utilizzato quei dati per la prima versione di LLaMA, le rivelazioni sollevano dubbi sull’origine dei dataset usati per addestrare Mistral 7B.
La vicenda assume particolare rilevanza alla luce del nuovo AI Act europeo, che impone trasparenza sulle fonti dei dati di training, obbligo che Mistral AI non ha ancora soddisfatto.
