Categoria: News

Mistral AI sotto accusa: scaricati 70 TB di libri pirata per addestrare modelli AI

Un’inchiesta di Mediapart ha rivelato che Mistral AI, una delle principali startup europee nel settore dell’intelligenza artificiale, è indirettamente coinvolta in un presunto caso di utilizzo di dati piratati.
Secondo i documenti giudiziari emersi dal contenzioso “Kadrey v. Meta”, Guillaume Lample, oggi direttore scientifico di Mistral AI, avrebbe coordinato nel 2022 il download di circa 70 terabyte di libri protetti da copyright da Library Genesis mentre lavorava in Meta.
I file sarebbero stati destinati all’addestramento di modelli linguistici, in un contesto di forte competizione con OpenAI e Google.
Sebbene Meta non abbia poi utilizzato quei dati per la prima versione di LLaMA, le rivelazioni sollevano dubbi sull’origine dei dataset usati per addestrare Mistral 7B.
La vicenda assume particolare rilevanza alla luce del nuovo AI Act europeo, che impone trasparenza sulle fonti dei dati di training, obbligo che Mistral AI non ha ancora soddisfatto.

Link alla fonte:
https://www.lesnumeriques.com/intelligence-artificielle/mistral-ai-la-licorne-francaise-accusee-par-meta-d-avoir-vole-70-to-de-livres-pour-nourrir-son-ia-n248558.html

Dicembre 23, 2025
Slop Evader filtra i contenuti AI e riporta il web all’era pre-ChatGPT

Secondo una ricerca di Graphite, oltre la metà dei nuovi contenuti pubblicati online oggi è generata da intelligenza artificiale, superando quelli creati da esseri umani.
In risposta a questa tendenza nasce Slop Evader, un’estensione per browser che mostra esclusivamente risultati pubblicati prima del 30 novembre 2022, data del lancio pubblico di ChatGPT (e per chi si stesse chiedendo “e per quelli cui viene volutamente cambiata la data di pubblicazione?” Farà fede quella di indicizzazione, probabilmente).
Lo strumento, sviluppato dall’artista e ricercatrice Tega Brain, utilizza l’API di ricerca di Google per garantire contenuti sicuramente prodotti da mani umane.
L’obiettivo è contrastare la perdita di fiducia nel web, sempre più “inquinato” da testi, immagini e video generati da modelli linguistici.
Il progetto si inserisce in un dibattito più ampio sull’impatto economico e culturale dell’uso massivo di IA generativa per aumentare traffico e ridurre i costi editoriali.

Link alla fonte:
https://www.genbeta.com/navegadores/mitad-internet-se-crea-ia-esta-extension-para-navegadores-te-devuelve-internet-libre-efectos-chatgpt

Dicembre 23, 2025
Google Discover: oltre metà dei contenuti sono già riassunti generati con AI in alcuni Paesi

Un’analisi di Marfeel rivela che in Paesi come Stati Uniti, Brasile e Messico oltre il 50% dei contenuti mostrati su Google Discover è costituito da riassunti generati dall’intelligenza artificiale.
Questi testi sintetizzano notizie prodotte dai media, ma spesso rimandano a video di YouTube invece che ai siti originali degli editori, riducendo il traffico verso le testate.
Il cambiamento trasforma Discover da canale di distribuzione a strumento di controllo dell’attenzione, con potenziali effetti negativi sui ricavi dei media.
La tendenza solleva anche dubbi sull’affidabilità: studi della Unione Europea di Radiodiffusione indicano che i modelli linguistici commettono errori o imprecisioni nel 45% dei casi.
Nonostante ciò, Google continua a sperimentare il modello in mercati chiave prima di un’eventuale estensione globale.

Link alla fonte:
https://www.eldiario.es/tecnologia/mitad-contenidos-recomendador-noticias-google-generados-ia-paises_1_12858384.html

Dicembre 23, 2025

Categoria: News

Mistral AI sotto accusa: scaricati 70 TB di libri pirata per addestrare modelli AI

Slop Evader filtra i contenuti AI e riporta il web all’era pre-ChatGPT

Google Discover: oltre metà dei contenuti sono già riassunti generati con AI in alcuni Paesi