Un’inchiesta di Mediapart ha rivelato che Mistral AI, una delle principali startup europee nel settore dell’intelligenza artificiale, è indirettamente coinvolta in un presunto caso di utilizzo di dati piratati.
Secondo i documenti giudiziari emersi dal contenzioso “Kadrey v. Meta”, Guillaume Lample, oggi direttore scientifico di Mistral AI, avrebbe coordinato nel 2022 il download di circa 70 terabyte di libri protetti da copyright da Library Genesis mentre lavorava in Meta.
I file sarebbero stati destinati all’addestramento di modelli linguistici, in un contesto di forte competizione con OpenAI e Google.
Sebbene Meta non abbia poi utilizzato quei dati per la prima versione di LLaMA, le rivelazioni sollevano dubbi sull’origine dei dataset usati per addestrare Mistral 7B.
La vicenda assume particolare rilevanza alla luce del nuovo AI Act europeo, che impone trasparenza sulle fonti dei dati di training, obbligo che Mistral AI non ha ancora soddisfatto.
Tag: Addestramento
-
OpenAI acquisisce Neptune.ai per potenziare il monitoraggio del training dei modelli avanzati
OpenAI ha annunciato un accordo definitivo per acquisire neptune.ai, piattaforma specializzata nel tracciamento e nell’analisi degli esperimenti di training dei modelli di machine learning.
L’integrazione punta a migliorare la visibilità in tempo reale sul comportamento dei modelli durante l’addestramento, un elemento cruciale nei processi creativi ed esplorativi del frontier research.
Neptune ha già collaborato con OpenAI nello sviluppo di strumenti capaci di confrontare migliaia di run, analizzare metriche su più livelli e identificare rapidamente problemi emergenti.
Secondo Jakub Pachocki, Chief Scientist di OpenAI, la tecnologia di Neptune consente analisi più precise e veloci dei workflow di training, offrendo un vantaggio strategico nell’ottimizzazione dei modelli.
Per Neptune, l’ingresso in OpenAI rappresenta l’opportunità di offrire le proprie soluzioni su scala globale e contribuire allo sviluppo della prossima generazione di strumenti di addestramento.
Link alla fonte:
https://openai.com/index/openai-to-acquire-neptune/ -
Cosa c’è DAVVERO dietro l’AI?
Ti sei mai chiesto chi c’è veramente dietro le risposte dei modelli di intelligenza artificiale più potenti?
Invisible Technologies, l’azienda che sostiene di aver addestrato l’80% dei principali modelli di IA del mondo, rivela che l’IA non è magia, ma un sofisticato testo predittivo potenziato da un “esercito invisibile di umani” che etichettano dati, valutano le risposte e insegnano ai modelli il giusto e lo sbagliato.
I Large Language Models (LLM), sistemi non deterministici basati su reti neurali, vengono addestrati attraverso tre meccanismi principali: il Supervised Fine-Tuning, che fornisce esempi di dati di alta qualità (i “libri di testo”); il Reinforcement Learning (o reward modeling), dove gli umani assegnano voti alle risposte, premiando i comportamenti desiderati; e l’Evaluation, ovvero la creazione di test per misurare i miglioramenti, tenendo conto che l’opinione degli utenti non è deterministica e la soggettività è fondamentale.
L’addestramento è una vera e propria ricerca scientifica complessa, non un semplice scooping up dell’internet, e la qualità dei dati è cruciale, poiché i modelli devono filtrare petabyte di contenuti irrilevanti o “spazzatura tossica” (come quella trovata su Reddit, una delle principali fonti di riferimento); di conseguenza, l’accesso a dati di addestramento superiori è destinato a diventare il vantaggio competitivo fondamentale (“moat”).
La complessità del lavoro di addestramento è aumentata notevolmente, richiedendo specialisti con competenze specifiche (come infermieri, avvocati o esperti multilingue) invece di generalisti, il che sta facendo lievitare i costi del settore.
Le aziende che implementano l’IA spesso commettono errori, come avere dati disorganizzati, non comprendere i propri processi interni (il black box del “team di Dave”), o tentare di automatizzare un processo esistente e difettoso anziché ridefinirlo completamente a partire dal risultato desiderato (come rimpiazzare un cavallo veloce con un’automobile); per avere successo, è essenziale stabilire metriche di valutazione chiare e oggettive, non un generico “pollice in su o in giù”.
Infine, sebbene l’impatto dell’IA si stia spostando dal digitale al fisico (veicoli autonomi, robotica, logistica), la supervisione umana rimarrà fondamentale, specialmente negli ambiti normati (come le decisioni mediche o legali) a causa delle questioni di responsabilità, e per funzioni essenziali come la people management e gli atti di comunicazione, data la natura non razionale e imprevedibile dell’essere umano.
Questa presentazione, realizzata con NotebookLM, nasce dalla trascrizione di un podcast del canale YouTube “The Neuron”, intitolato “This Company Trained 80% of the World’s Top AI Models (Here’s How They Do It)”.
-
L’IA soffre di “brain rot”: lo studio rivela i danni dei “dati spazzatura”
Uno studio condotto da ricercatori dell’Università del Texas ad Austin e della Purdue University, pubblicato su arXiv, evidenzia che anche le intelligenze artificiali possono soffrire di “brain rot”, una sorta di stordimento cognitivo simile a quello umano causato da un’eccessiva esposizione a contenuti digitali di bassa qualità.
I modelli linguistici di Meta e Alibaba testati hanno mostrato un declino nelle capacità di ragionamento, memoria e comportamento etico quando addestrati con testi sensazionalistici e clickbait.
Secondo Junyuan Hong, coautore dello studio, l’assunto che i contenuti virali siano buoni per l’addestramento è errato: i dati di scarsa qualità corrodono la logica e l’etica delle IA.
Gli studiosi avvertono che anche le strategie di mitigazione non riescono a invertire del tutto i danni, richiamando l’attenzione su una regola valida tanto per l’uomo quanto per le macchine: “sei quello che mangi”.
Link alla fonte:L’intelligenza artificiale soffre di ‘brain rot’, il rimbambimento da web: lo studio | Sky TG24
-
Class action USA contro Anthropic: l’uso non autorizzato di 7 milioni di libri potrebbe portare a risarcimenti miliardari agli autori
Il 17 luglio 2025 il giudice federale William Alsup ha certificato una class action nazionale che permette a tre autori—Andrea Bartz, Charles Graeber e Kirk Wallace Johnson—di rappresentare milioni di scrittori statunitensi i cui libri sarebbero stati scaricati dai siti pirata LibGen e PiLiMi per addestrare il modello Claude di Anthropic. La causa, distinta da un precedente parziale via libera al “fair use” per i testi regolarmente acquistati e digitalizzati, contesta l’archiviazione di circa 7 milioni di opere “piratate” e potrebbe costare all’azienda miliardi di dollari (almeno 750 $ per libro). Il processo sul materiale illegale è fissato per dicembre 2025, mentre il tribunale dovrà quantificare entro il 1 settembre il corpus effettivamente copiato. Il caso stabilisce un precedente cruciale che separa l’uso trasformativo di contenuti legali dalla pirateria e potrebbe influenzare controversie analoghe contro OpenAI, Meta o Microsoft, spingendo l’intero settore IA verso pratiche di licensing più trasparenti.
Link alla fonte:
https://www.spazio50.org/ia-e-copyright-arriva-la-prima-class-action-contro-anthropic/
