Tag: Pirateria

  • L’Intelligenza Artificiale entra nel database di paper più grande (e discusso) al mondo

    Se usate la ricerca accademica, sapete bene cos’è Sci-Hub. Ma la novità è un’altra: la piattaforma ha appena lanciato Sci-Bot, un assistente basato su IA in grado di cambiare radicalmente il modo in cui consultiamo la letteratura scientifica.

    🤖 Cos’è Sci-Bot e perché è una rivoluzione?

    A differenza di ChatGPT o di altri Large Language Models tradizionali — che spesso inventano fonti o soffrono di “allucinazioni” — Sci-Bot risponde attingendo esclusivamente a dati reali.

    L’utente pone una domanda in linguaggio naturale e l’IA scansiona milioni di studi, sintetizza la risposta e fornisce i link diretti ai PDF dei paper originali. Poiché si muove all’interno del mega-archivio di Sci-Hub, questa IA ha un vantaggio unico: può “leggere” e sintetizzare anche gli articoli scientifici protetti dai paywall delle grandi case editrici, cosa vietata alle IA commerciali.

    📚 Il background: cos’è Sci-Hub?

    Fondato nel 2011, Sci-Hub è un portale che garantisce l’accesso gratuito a oltre 85 milioni di pubblicazioni scientifiche, superando le barriere economiche (spesso di 30-40 dollari a singolo articolo) imposte dagli editori tradizionali. Per molti è uno strumento illegale di pirateria informatica; per gran parte della comunità scientifica globale, è un’ancora di salvataggio indispensabile per il progresso e l’Open Access.

    🧠 Dietro il progetto: Aleksandra Ėlbakjan

    La mente dietro tutto questo è la programmatrice e neuroscienziata kazaka Aleksandra Ėlbakjan. Soprannominata la “Robin Hood della scienza”, creò la piattaforma da studentessa per permettere a chiunque, specialmente nei paesi in via di sviluppo, di studiare senza barriere economiche. Oggi vive sotto protezione a causa di svariate cause legali miliardarie e mandati di cattura internazionali, ma continua a sviluppare il progetto.

    La nascita di Sci-Bot apre un dibattito etico e tecnologico enorme: l’IA open-source basata su archivi non autorizzati accelererà la scienza o destabilizzerà definitivamente il mercato dell’editoria accademica?

  • Mistral AI sotto accusa: scaricati 70 TB di libri pirata per addestrare modelli AI

    Un’inchiesta di Mediapart ha rivelato che Mistral AI, una delle principali startup europee nel settore dell’intelligenza artificiale, è indirettamente coinvolta in un presunto caso di utilizzo di dati piratati.
    Secondo i documenti giudiziari emersi dal contenzioso “Kadrey v. Meta”, Guillaume Lample, oggi direttore scientifico di Mistral AI, avrebbe coordinato nel 2022 il download di circa 70 terabyte di libri protetti da copyright da Library Genesis mentre lavorava in Meta.
    I file sarebbero stati destinati all’addestramento di modelli linguistici, in un contesto di forte competizione con OpenAI e Google.
    Sebbene Meta non abbia poi utilizzato quei dati per la prima versione di LLaMA, le rivelazioni sollevano dubbi sull’origine dei dataset usati per addestrare Mistral 7B.
    La vicenda assume particolare rilevanza alla luce del nuovo AI Act europeo, che impone trasparenza sulle fonti dei dati di training, obbligo che Mistral AI non ha ancora soddisfatto.

    Link alla fonte:
    https://www.lesnumeriques.com/intelligence-artificielle/mistral-ai-la-licorne-francaise-accusee-par-meta-d-avoir-vole-70-to-de-livres-pour-nourrir-son-ia-n248558.html

  • Class action USA contro Anthropic: l’uso non autorizzato di 7 milioni di libri potrebbe portare a risarcimenti miliardari  agli autori

    Il 17 luglio 2025 il giudice federale William Alsup ha certificato una class action nazionale che permette a tre autori—Andrea Bartz, Charles Graeber e Kirk Wallace Johnson—di rappresentare milioni di scrittori statunitensi i cui libri sarebbero stati scaricati dai siti pirata LibGen e PiLiMi per addestrare il modello Claude di Anthropic. La causa, distinta da un precedente parziale via libera al “fair use” per i testi regolarmente acquistati e digitalizzati, contesta l’archiviazione di circa 7 milioni di opere “piratate” e potrebbe costare all’azienda miliardi di dollari (almeno 750 $ per libro). Il processo sul materiale illegale è fissato per dicembre 2025, mentre il tribunale dovrà quantificare entro il 1 settembre il corpus effettivamente copiato. Il caso stabilisce un precedente cruciale che separa l’uso trasformativo di contenuti legali dalla pirateria e potrebbe influenzare controversie analoghe contro OpenAI, Meta o Microsoft, spingendo l’intero settore IA verso pratiche di licensing più trasparenti.

    Link alla fonte:
    https://www.spazio50.org/ia-e-copyright-arriva-la-prima-class-action-contro-anthropic/