Tag: DeepSeek

  • Anthropic accusa tre “AI lab” cinesi (DeepSeek, Moonshot AI e MiniMax) di “industrial-scale distillation attacks” su Claude

    Oltre 24.000 account fraudolenti creati per generare più di 16 milioni di interazioni con Claude, al fine di estrarre, e distillare, le sue capacità avanzate (in particolare agentic reasoning, tool use e coding) al fine  di migliorare i propri modelli.
    Anthropic lo definisce “un problema competitivo, ma anche di sicurezza nazionale e geopolitica”, infatti questi attacchi aggirerebbero gli export controls USA sui chip avanzati, permettendo a laboratori stranieri (sotto influenza del Partito Comunista Cinese, secondo loro) di chiudere il gap senza rispettare le misure di sicurezza, ovvero sviluppare modelli potenti sfruttando quelli occidentali ma con la libertà di usare quelli prodotti senza alcun vincolo o limitazione di tipo etico.
    OpenAI aveva già mosso accuse simili su DeepSeek a febbraio, e di fronte a questo nuovo scenario la comunità è divisa: molti parlano di “ipocrisia” (tutti i lab occidentali hanno trainato su dati pubblici/web senza permessi espliciti), altri sottolineano la differenza cui accennavo prima, ovvero che estrarre output da API a questa scala può bypassare safety rails e replicare comportamenti agentici/tool-use in modo più diretto e potenzialmente pericoloso.
    Intanto Qwen e Z.ai (GLM) non sono stati nominati… troppo onesti o più furbi dei colleghi?
    Cosa ne pensate? È solo “business as usual” nella corsa all’AI USA-Cina, o si tratta di un vero e proprio punto di svolta per proteggere IP e safety nei modelli di frontiera?

    Intanto vi lascio il post ufficiale di Anthropic: https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks

  • Google scopre che i modelli AI cinesi imitano l’intelligenza collettiva umana

    Un nuovo studio di ricercatori di Google ha analizzato i modelli di ragionamento sviluppati da DeepSeek e Alibaba Cloud, rilevando che il loro funzionamento interno assomiglia ai meccanismi dell’intelligenza collettiva umana.
    In particolare, i modelli DeepSeek R1 e QwQ-32B di Alibaba generano dibattiti interni multi-agente, definiti dai ricercatori “società del pensiero”, in cui interagiscono prospettive e competenze diverse.
    Lo studio suggerisce che la diversità delle prospettive, oltre alla sola scala computazionale, sia un fattore chiave nell’aumento delle capacità di ragionamento dell’AI.
    I risultati, pubblicati su arXiv e non ancora sottoposti a peer review, evidenziano anche la crescente importanza dei modelli open-weight cinesi nella ricerca accademica statunitense.
    Questo approccio potrebbe ridefinire il modo in cui vengono progettati i futuri sistemi di intelligenza artificiale, favorendo architetture di ragionamento collettivo anziché entità isolate.

    Link alla fonte:
    https://amp.scmp.com/tech/tech-trends/article/3340690/google-study-finds-deepseek-alibaba-ai-models-mimic-human-collective-intelligence

  • DeepSeek presenta V3.2 e V3.2-Speciale: modelli a contesto lungo con ragionamento da GPT-5 a costi ridotti

    DeepSeek ha introdotto i modelli DeepSeek-V3.2 e DeepSeek-V3.2-Speciale, progettati per fornire ragionamento avanzato su contesti lunghi e workload agentici senza i costi quadratici tipici dell’attenzione densa.
    I modelli adottano la nuova DeepSeek Sparse Attention, che riduce la complessità da O(L²) a O(kL) mantenendo una qualità comparabile alle versioni dense, con un taglio dei costi d’inferenza di circa il 50%.
    A questo si aggiunge un massiccio utilizzo di reinforcement learning tramite GRPO, con specialisti per matematica, programmazione, logica, browsing e agenti, poi distillati nel modello principale.
    La pipeline introduce inoltre un protocollo agent-native, espliciti thinking/non-thinking mode e un dataset sintetico di oltre 85.000 task per agenti.
    Nei benchmark e nelle competizioni ufficiali, DeepSeek-V3.2-Speciale raggiunge prestazioni simili a GPT-5 e vicine a Gemini 3.0 Pro, ottenendo risultati da medaglia d’oro in competizioni di livello olimpico.

    Link alla fonte:
    https://www.marktechpost.com/2025/12/01/deepseek-researchers-introduce-deepseek-v3-2-and-deepseek-v3-2-speciale-for-long-context-reasoning-and-agentic-workloads/