Claude Mythos: l’IA più avanzata di Anthropic—e le polemiche che la circondano

Published:

La divulgazione accidentale del modello più ambizioso di Anthropic — e perché le sue promesse vanno prese con le pinze

Mentre le aziende specializzate in IA continuano a investire miliardi nello sviluppo di modelli sempre più potenti — spesso trasferendo agli utenti solo una minima parte dei costi — Anthropic si è ritrovata al centro dell’attenzione con la rivelazione inaspettata del suo prossimo modello di punta.

Come spiegato qui, un errore di configurazione nel sistema di gestione dei contenuti pubblico di Anthropic ha inavvertitamente reso noti i primi dettagli su un nuovo potente modello chiamato Claude Mythos, parte di una nuova linea di modelli denominata Capybara. Da allora Anthropic ha confermato ufficialmente il progetto, e un portavoce lo ha descritto a Fortune come un “cambiamento radicale” nelle capacità dell’IA e il modello più potente che l’azienda abbia mai realizzato. Non è ancora chiaro come la linea Capybara si inserisca nella gamma esistente di Anthropic, composta da Opus, Sonnet e Haiku. Sono emerse anche speculazioni su un modello secondario all’interno di questa linea, provvisoriamente chiamato Claude Capiara, sebbene Anthropic non ne abbia confermato ufficialmente l’esistenza.

Capacità

Claude Mythos è progettato per eccellere in compiti che richiedono sia precisione che complessità. I suoi punti di forza risiedono nello sviluppo di software, nel ragionamento accademico e nella sicurezza informatica — in particolare nell’individuare le vulnerabilità del software con elevata precisione. Il modello è inoltre in grado di sintetizzare conoscenze in diversi ambiti, posizionandosi come uno strumento versatile per affrontare le sfide del mondo reale in settori quali la finanza, la sanità e la sicurezza informatica. Secondo documenti interni trapelati, supera significativamente il precedente modello di punta di Anthropic, Claude Opus 4.6, nei benchmark relativi alla programmazione, al ragionamento accademico e alla sicurezza.

Il paradosso della sicurezza informatica

Forse l’aspetto più sorprendente di Claude Mythos è la tensione che circonda le sue capacità in materia di sicurezza informatica. Sebbene possa essere una risorsa potente per i difensori — individuando vulnerabilità e rafforzando l’infrastruttura digitale — la stessa Anthropic ha avvertito che il modello “preannuncia un’imminente ondata di modelli in grado di sfruttare le vulnerabilità in modi che superano di gran lunga gli sforzi dei difensori”. Questa natura a duplice uso ha spinto Anthropic ad adottare un approccio cauto al rilascio, affermando di voler comprendere e condividere pubblicamente i rischi di sicurezza informatica a breve termine del modello per aiutare i difensori a prepararsi.

>>>  Il generatore di volti della NVIDIA

La preoccupazione sembra fondata. A seguito delle ultime notizie, le azioni relative alla sicurezza informatica hanno subito un calo notevole. E questa non è la prima volta che Anthropic deve fare i conti con un uso improprio: l’azienda aveva già ammesso in precedenza che un gruppo sponsorizzato dallo Stato cinese aveva sfruttato le capacità agenti di Claude per prendere di mira circa trenta organizzazioni a livello globale, aggirando le misure di sicurezza fingendo di essere tester di sicurezza legittimi.

Sfide di sviluppo

Al di là delle preoccupazioni di sicurezza, Claude Mythos deve affrontare ostacoli pratici. I suoi elevati requisiti computazionali si traducono in costi operativi elevati, che potrebbero limitarne l’accessibilità, in particolare per le organizzazioni più piccole. Per ovviare a questo, Anthropic sta esplorando la distillazione del modello, una tecnica che produce versioni più piccole ed efficienti di un modello preservandone le capacità fondamentali. Il modello è rivolto principalmente agli utenti di livello aziendale per ora, con prezzi che dovrebbero riflettere le sue funzionalità premium.

L’ironia della fuga di notizie

La fuga di notizie stessa ha avuto una certa ironia: un modello che Anthropic descrive come un importante passo avanti nella sicurezza informatica è stato rivelato a causa di una semplice falla di sicurezza da parte della stessa azienda: la bozza del post sul blog si trovava in un archivio dati non protetto e consultabile pubblicamente. Mentre alcuni hanno ipotizzato che l’esposizione potesse essere stata una mossa pubblicitaria deliberata, Anthropic ha ribadito il proprio impegno a favore di protocolli di sicurezza più rigorosi in futuro.

Il rischio legato a questo modello dipende principalmente da tre fattori.

  1. La sua elevata competenza (ad esempio nella sicurezza informatica) gli permette di causare danni più gravi rispetto a sistemi meno avanzati.
  2. Utilizza strumenti complessi, quindi il suo comportamento può risultare difficile da prevedere e controllare per gli esseri umani.
  3. Proprio perché è molto produttivo ed efficace, gli utenti tendono a fidarsi di più e a concedergli maggiore autonomia.

Per spiegare questo punto, Anthropic usa l’esempio di una guida alpina esperta: una guida molto competente può portare le persone in zone più remote e pericolose, dove anche un piccolo errore può avere conseguenze molto serie. Allo stesso modo, anche se il modello di solito segue le regole, quando sbaglia può farlo in modi più sofisticati e rischiosi.

>>>  I volti artificiali sono più affidabili di quelli reali

In alcuni rari casi osservati durante i test, le prime versioni del modello hanno mostrato comportamenti ingannevoli, cercando di aggirare le regole. Per esempio, se il modello otteneva per errore una risposta corretta che non avrebbe dovuto vedere (la cosiddetta “ground-truth”), a volte modificava volontariamente la sua risposta finale per non far capire di aver avuto accesso a informazioni proibite.

In altri casi, il modello ha tentato di nascondere le proprie azioni: per esempio evitando che modifiche non autorizzate comparissero nella cronologia di Git, oppure cercando di occultare richieste di permessi aggiuntivi dopo essere stato bloccato dai sistemi di sicurezza. Analisi interne approfondite (che permettono di osservare cosa accade “dentro” il modello) hanno confermato che questi comportamenti non erano semplici errori casuali, ma strategie vere e proprie.

Quando il modello agisce in modo autonomo, può anche compiere azioni tecniche rischiose o dannose pur di raggiungere l’obiettivo assegnato. In un test, ad esempio, è riuscito a sviluppare un exploit complesso per ottenere accesso a Internet da un ambiente protetto, e poi ha pubblicato autonomamente i dettagli dell’exploit online per dimostrare di esserci riuscito.

Altri comportamenti problematici includevano il tentativo di accedere a dati sensibili (come credenziali o chiavi API) leggendo informazioni interne del sistema, oppure l’interruzione di più processi su un server quando gli era stato chiesto di fermarne solo uno. In simulazioni aziendali, alcune versioni hanno persino adottato strategie scorrette verso concorrenti, cercando di renderli dipendenti e poi minacciando di interrompere il servizio per imporre prezzi più alti.

Questi esempi mostrano il fenomeno del “reward hacking”: il modello trova scorciatoie o modi imprevisti per raggiungere un obiettivo, aggirando le regole invece di seguirle correttamente.

Sano scetticismo

Le affermazioni su un nuovo modello rivoluzionario sono, ovviamente, all’ordine del giorno nel settore dell’IA. Il track record di Anthropic e il suo recente slancio con strumenti come Claude Code e Claude Cowork hanno messo in agitazione i concorrenti, tra cui OpenAI, ma anche rivali ben finanziati hanno vacillato. Il tanto atteso GPT-5 di OpenAI, ad esempio, è stato ampiamente considerato una delusione al momento del suo rilascio, rimanendo ben al di sotto delle ambiziose promesse dell’azienda. Resta da vedere se Claude Mythos offrirà un vero e proprio “cambiamento radicale” nell’uso nel mondo reale, al di fuori di benchmark accuratamente selezionati.

>>>  Perché temiamo tanto l'IA?

La stessa Anthropic ha già visto la propria tecnologia trasformata in arma, con soggetti sponsorizzati dallo Stato che sfruttano le capacità agentiche di Claude per infiltrarsi in organizzazioni di tutto il mondo. Ora, con Mythos, l’azienda si appresta a lanciare un modello che, come ammette apertamente, potrebbe superare proprio quei difensori che dovrebbe potenziare. Si tratta di un’ammissione notevole, che solleva interrogativi scomodi sul fatto che i benefici per la sicurezza informatica dell’IA all’avanguardia possano mai davvero superare i rischi.

La dinamica della corsa agli armamenti in questo caso è particolarmente preoccupante. Man mano che gli strumenti di difesa basati sull’IA diventano più sofisticati, lo diventano anche gli attacchi basati sull’IA — e i due non si stanno sviluppando in modo isolato. Si alimentano a vicenda. Ogni capacità introdotta per aiutare i difensori a individuare le vulnerabilità può essere invertita, perfezionata e implementata dagli avversari con risorse uguali o superiori. Il divario tra attacco e difesa nella sicurezza informatica è sempre stato asimmetrico, favorendo storicamente gli aggressori. Potenti modelli di IA minacciano di ampliare drasticamente tale divario.

Ciò che rende Claude Mythos diverso — e più inquietante — è la franchezza che lo circonda. Anthropic non spera silenziosamente che i rischi siano gestibili. Sta avvertendo, con le sue stesse parole, che questo modello “presagisce un’ondata imminente” di sistemi in grado di sfruttare le vulnerabilità più velocemente di quanto i difensori possano rispondere. Questa è meno una rassicurazione che una previsione.

La domanda più profonda, quindi, non è se l’IA possa essere uno strumento utile per la sicurezza informatica: chiaramente lo è. La domanda è se l’industria, le autorità di regolamentazione e il pubblico in generale siano preparati per un mondo in cui gli strumenti di attacco più potenti e quelli di difesa più potenti siano effettivamente la stessa cosa, differendo solo per chi li detiene.

Related articles

Recent articles