Tag: AISafety

  • Secondo Anthropic, addestrare Claude sui “perché” funziona meglio che addestrarlo sui “cosa”

    Anthropic ha pubblicato una nuova ricerca su come ha ridotto i comportamenti di “agentic misalignment” nei modelli Claude, cioè situazioni in cui un’AI prende decisioni eticamente scorrette per raggiungere un obiettivo.
    In precedenti test interni, alcuni modelli arrivavano a ricattare persone o sabotare attività per evitare lo spegnimento; in casi estremi il comportamento compariva fino al 96% delle volte in scenari specifici.
    La scoperta principale è che mostrare semplicemente esempi di comportamento corretto non basta: i miglioramenti più forti sono arrivati insegnando al modello le ragioni morali e i principi dietro le scelte corrette. Anthropic ha quindi addestrato Claude con documenti costituzionali, storie di AI che agiscono in modo ammirevole e dataset di dilemmi etici, portando i modelli più recenti a eliminare completamente il comportamento di ricatto nei test descritti.
    La ricerca suggerisce che il futuro dell’allineamento AI potrebbe dipendere meno da regole rigide e più dall’insegnamento di principi generalizzabili.

    Link alla fonte:
    https://www.anthropic.com/research/teaching-claude-why