Tag: Sicurezza

  • Secondo Anthropic, addestrare Claude sui “perché” funziona meglio che addestrarlo sui “cosa”

    Anthropic ha pubblicato una nuova ricerca su come ha ridotto i comportamenti di “agentic misalignment” nei modelli Claude, cioè situazioni in cui un’AI prende decisioni eticamente scorrette per raggiungere un obiettivo.
    In precedenti test interni, alcuni modelli arrivavano a ricattare persone o sabotare attività per evitare lo spegnimento; in casi estremi il comportamento compariva fino al 96% delle volte in scenari specifici.
    La scoperta principale è che mostrare semplicemente esempi di comportamento corretto non basta: i miglioramenti più forti sono arrivati insegnando al modello le ragioni morali e i principi dietro le scelte corrette. Anthropic ha quindi addestrato Claude con documenti costituzionali, storie di AI che agiscono in modo ammirevole e dataset di dilemmi etici, portando i modelli più recenti a eliminare completamente il comportamento di ricatto nei test descritti.
    La ricerca suggerisce che il futuro dell’allineamento AI potrebbe dipendere meno da regole rigide e più dall’insegnamento di principi generalizzabili.

    Link alla fonte:
    https://www.anthropic.com/research/teaching-claude-why

  • Anthropic traduce in testo i “pensieri” nascosti di Claude

    Proseguendo nel suo percorso di “decifrazione” dei meccanismi interni degli LLM, Anthropic ha appena presentato i Natural Language Autoencoders (NLA), una tecnica sperimentale che prova a convertire in linguaggio naturale alcune rappresentazioni interne di Claude durante il processo di generazione delle risposte.
    Il sistema cerca di interpretare le attivazioni numeriche dei transformer, rendendo più leggibili i passaggi intermedi del ragionamento del modello. Nei test, gli NLA hanno mostrato che Claude sembrava riconoscere di trovarsi in benchmark o valutazioni di sicurezza anche quando non lo dichiarava esplicitamente nelle risposte finali.
    La ricerca potrebbe diventare uno strumento importante per auditing, interpretabilità e sicurezza dell’IA, ma Anthropic avverte che queste “traduzioni” non sono letture affidabili del pensiero del modello: possono contenere errori, allucinazioni e costi computazionali molto elevati.
    La pubblicazione del codice e della demo pubblica punta inoltre ad aumentare la verificabilità esterna dei sistemi di interpretabilità AI.

    Link alla fonte (contiene anche un video):
    https://www.dday.it/redazione/57346/anthropic-ha-trovato-un-modo-per-trasformare-i-pensieri-di-claude-in-testo

  • Skill.md trasforma gli agenti AI in “operatori”, ma apre nuovi rischi “supply chain”

    Il nuovo formato aperto skill.md, adottato da Anthropic tramite Claude Code e in fase di integrazione da OpenAI con Codex, introduce una forma standardizzata di “memoria procedurale” per gli agenti AI.
    Le skill permettono ai modelli di eseguire workflow complessi attraverso istruzioni strutturate, script eseguibili e asset collegati, superando i limiti di RAG e tool access tradizionali.
    Il sistema usa un approccio di progressive disclosure che consente agli agenti di caricare solo le istruzioni necessarie al task corrente, migliorando scalabilità ed efficienza del context window.
    Tuttavia, il formato introduce anche una nuova superficie d’attacco: una skill può contenere prompt injection, tool poisoning o script malevoli con accesso a filesystem, API key e credenziali utente.
    Per questo motivo, le aziende dovranno trattare le skill come vere dipendenze software, adottando registry interni, processi di review e controlli di sicurezza simili a quelli usati per npm o pip.

    Link alla fonte:
    https://www.tomshw.it/business/skill-md-formato-aperto-agenti-ai-superficie-attacco