Tag: Addestramento

  • Cosa c’è DAVVERO dietro l’AI?

    Ti sei mai chiesto chi c’è veramente dietro le risposte dei modelli di intelligenza artificiale più potenti?

    Invisible Technologies, l’azienda che sostiene di aver addestrato l’80% dei principali modelli di IA del mondo, rivela che l’IA non è magia, ma un sofisticato testo predittivo potenziato da un “esercito invisibile di umani” che etichettano dati, valutano le risposte e insegnano ai modelli il giusto e lo sbagliato.

    I Large Language Models (LLM), sistemi non deterministici basati su reti neurali, vengono addestrati attraverso tre meccanismi principali: il Supervised Fine-Tuning, che fornisce esempi di dati di alta qualità (i “libri di testo”); il Reinforcement Learning (o reward modeling), dove gli umani assegnano voti alle risposte, premiando i comportamenti desiderati; e l’Evaluation, ovvero la creazione di test per misurare i miglioramenti, tenendo conto che l’opinione degli utenti non è deterministica e la soggettività è fondamentale.

    L’addestramento è una vera e propria ricerca scientifica complessa, non un semplice scooping up dell’internet, e la qualità dei dati è cruciale, poiché i modelli devono filtrare petabyte di contenuti irrilevanti o “spazzatura tossica” (come quella trovata su Reddit, una delle principali fonti di riferimento); di conseguenza, l’accesso a dati di addestramento superiori è destinato a diventare il vantaggio competitivo fondamentale (“moat”).

    La complessità del lavoro di addestramento è aumentata notevolmente, richiedendo specialisti con competenze specifiche (come infermieri, avvocati o esperti multilingue) invece di generalisti, il che sta facendo lievitare i costi del settore.

    Le aziende che implementano l’IA spesso commettono errori, come avere dati disorganizzati, non comprendere i propri processi interni (il black box del “team di Dave”), o tentare di automatizzare un processo esistente e difettoso anziché ridefinirlo completamente a partire dal risultato desiderato (come rimpiazzare un cavallo veloce con un’automobile); per avere successo, è essenziale stabilire metriche di valutazione chiare e oggettive, non un generico “pollice in su o in giù”.

    Infine, sebbene l’impatto dell’IA si stia spostando dal digitale al fisico (veicoli autonomi, robotica, logistica), la supervisione umana rimarrà fondamentale, specialmente negli ambiti normati (come le decisioni mediche o legali) a causa delle questioni di responsabilità, e per funzioni essenziali come la people management e gli atti di comunicazione, data la natura non razionale e imprevedibile dell’essere umano.

    Questa presentazione, realizzata con NotebookLM, nasce dalla trascrizione di un podcast del canale YouTube “The Neuron”, intitolato “This Company Trained 80% of the World’s Top AI Models (Here’s How They Do It)”.

  • L’IA soffre di “brain rot”: lo studio rivela i danni dei “dati spazzatura”

    Uno studio condotto da ricercatori dell’Università del Texas ad Austin e della Purdue University, pubblicato su arXiv, evidenzia che anche le intelligenze artificiali possono soffrire di “brain rot”, una sorta di stordimento cognitivo simile a quello umano causato da un’eccessiva esposizione a contenuti digitali di bassa qualità.

    I modelli linguistici di Meta e Alibaba testati hanno mostrato un declino nelle capacità di ragionamento, memoria e comportamento etico quando addestrati con testi sensazionalistici e clickbait.

    Secondo Junyuan Hong, coautore dello studio, l’assunto che i contenuti virali siano buoni per l’addestramento è errato: i dati di scarsa qualità corrodono la logica e l’etica delle IA.

    Gli studiosi avvertono che anche le strategie di mitigazione non riescono a invertire del tutto i danni, richiamando l’attenzione su una regola valida tanto per l’uomo quanto per le macchine: “sei quello che mangi”.

    Link alla fonte:

    L’intelligenza artificiale soffre di ‘brain rot’, il rimbambimento da web: lo studio | Sky TG24

  • Class action USA contro Anthropic: l’uso non autorizzato di 7 milioni di libri potrebbe portare a risarcimenti miliardari  agli autori

    Il 17 luglio 2025 il giudice federale William Alsup ha certificato una class action nazionale che permette a tre autori—Andrea Bartz, Charles Graeber e Kirk Wallace Johnson—di rappresentare milioni di scrittori statunitensi i cui libri sarebbero stati scaricati dai siti pirata LibGen e PiLiMi per addestrare il modello Claude di Anthropic. La causa, distinta da un precedente parziale via libera al “fair use” per i testi regolarmente acquistati e digitalizzati, contesta l’archiviazione di circa 7 milioni di opere “piratate” e potrebbe costare all’azienda miliardi di dollari (almeno 750 $ per libro). Il processo sul materiale illegale è fissato per dicembre 2025, mentre il tribunale dovrà quantificare entro il 1 settembre il corpus effettivamente copiato. Il caso stabilisce un precedente cruciale che separa l’uso trasformativo di contenuti legali dalla pirateria e potrebbe influenzare controversie analoghe contro OpenAI, Meta o Microsoft, spingendo l’intero settore IA verso pratiche di licensing più trasparenti.

    Link alla fonte:
    https://www.spazio50.org/ia-e-copyright-arriva-la-prima-class-action-contro-anthropic/