Anthropic fa un passo avanti nell’interpretazione dei “cervelli” delle IA, dando impulso alla ricerca sulla sicurezza

Come riporta il Time, oggi l’intelligenza artificiale viene spesso definita una “scatola nera”. Invece di creare regole esplicite per questi sistemi, gli ingegneri dell’IA forniscono loro enormi quantità di dati, e gli algoritmi capiscono i modelli autonomamente. Tuttavia, i tentativi volti a penetrare all’interno dei modelli di IA per vedere esattamente cosa sta succedendo non hanno fatto molti progressi e il funzionamento interno dei modelli rimane opaco. Le reti neurali, il tipo di intelligenza artificiale più potente oggi disponibile, sono essenzialmente miliardi di “neuroni” artificiali espressi come numeri decimali. Nessuno sa come funzionino o cosa significhino.

Questa realtà incombe su coloro che sono preoccupati per le minacce associate all’IA.

Come si può essere sicuri che un sistema sia sicuro se non si capisce esattamente come funziona?

Il laboratorio di intelligenza artificiale Anthropic, creatore di Claude, che è simile a ChatGPT ma si differenzia per alcune caratteristiche, ha dichiarato di aver fatto progressi nella risoluzione di questo problema. Il “cervello” di un modello di IA può ora essere scansionato virtualmente dai ricercatori, che possono riconoscere gruppi di neuroni, o “caratteristiche”, associate a determinati concetti. Claude Sonnet, il secondo sistema più potente del laboratorio, è un modello linguistico di frontiera di grandi dimensioni ed è stato utilizzato con successo per la prima volta.

I ricercatori di Anthropic hanno trovato in Claude una caratteristica che incarna l’idea di “codice non sicuro”. Sono riusciti a far produrre a Claude un codice con un bug che potrebbe essere usato per creare una vulnerabilità stimolando quei neuroni. Tuttavia, i ricercatori hanno scoperto che inibendo i neuroni, Claude produceva codice innocuo.

I risultati potrebbero avere effetti significativi sulla sicurezza dei sistemi di intelligenza artificiale del futuro e del presente. I ricercatori hanno scoperto milioni di caratteristiche all’interno di Claude, alcune delle quali indicavano comportamenti manipolativi, discorsi tossici, pregiudizi e attività fraudolente. Hanno anche scoperto di poter modificare il comportamento del modello sopprimendo ciascuno di questi gruppi di neuroni.

Oltre a contribuire ad affrontare i rischi attuali, questa tecnica potrebbe essere utile anche per quelli più speculativi. Per molti anni, il dialogo con i sistemi di intelligenza artificiale emergenti è stato il principale strumento a disposizione degli studiosi per cercare di comprenderne il potenziale e i rischi.

Questo approccio, comunemente chiamato “red-teaming“, può aiutare a identificare un modello tossico o pericoloso, in modo che i ricercatori possano sviluppare misure di sicurezza prima che il modello venga distribuito al pubblico. Tuttavia, non affronta un particolare tipo di possibile minaccia che preoccupa alcuni ricercatori di IA: la possibilità che un sistema di IA diventi abbastanza intelligente da ingannare i suoi creatori, nascondendo loro le sue capacità fino a sfuggire al loro controllo ed eventualmente causare il caos.

“Se riuscissimo a comprendere davvero questi sistemi – e questo richiederebbe molti progressi – potremmo essere in grado di dire quando questi modelli sono effettivamente sicuri o se lo sembrano soltanto”, ha dichiarato Chris Olah, responsabile del team di interpretabilità di Anthropic che ha guidato la ricerca.

“Il fatto che possiamo fare questi interventi sul modello mi suggerisce che stiamo iniziando a fare progressi su quella che si potrebbe definire una radiografia o una risonanza magnetica [di un modello di intelligenza artificiale]”, aggiunge Dario Amodei, CEO di Anthropic. “In questo momento il paradigma è: parliamo al modello, vediamo cosa fa. Ma quello che vorremmo fare è guardare dentro il modello come un oggetto, come scansionare il cervello invece di intervistare qualcuno”.

In una sinossi dei risultati, Anthropic ha dichiarato che lo studio è ancora nelle fasi iniziali. Il laboratorio ha tuttavia espresso ottimismo sul fatto che i risultati potrebbero presto essere utili per il suo lavoro sulla sicurezza delle IA. “La capacità di manipolare le caratteristiche può fornire una strada promettente per influenzare direttamente la sicurezza dei modelli di IA”, ha dichiarato Anthropic. L’azienda ha dichiarato che potrebbe essere in grado di fermare i cosiddetti “jailbreak” dei modelli di IA – una vulnerabilità in cui le precauzioni di sicurezza possono essere disattivate – sopprimendo specifiche caratteristiche.

Per anni, gli scienziati del team “interpretability” di Anthropic hanno cercato di guardare all’interno delle architetture delle reti neurali. Tuttavia, fino a poco tempo fa, lavoravano principalmente su modelli molto più piccoli rispetto agli enormi modelli linguistici che le aziende tecnologiche stanno attualmente sviluppando e rendendo pubblici.

Il fatto che i singoli neuroni all’interno dei modelli di intelligenza artificiale si attivino anche quando il modello sta discutendo di concetti completamente diversi è stato uno dei fattori che hanno contribuito a questo lento progresso. “Questo significa che lo stesso neurone potrebbe attivarsi su concetti molto diversi tra loro, come la presenza del punto e virgola nei linguaggi di programmazione informatica, i riferimenti ai burrito o la discussione sul Golden Gate Bridge, dandoci poche indicazioni su quale sia il concetto specifico responsabile dell’attivazione di un determinato neurone”, ha dichiarato Anthropic nella sua sintesi della ricerca.

Per ovviare a questo problema, i ricercatori del team Anthropic di Olah hanno fatto uno zoom. Invece di concentrarsi sull’esame di singoli neuroni, hanno iniziato a cercare gruppi di neuroni che potessero attivarsi in risposta a un determinato concetto. Con questa tecnica hanno potuto passare dalla ricerca di modelli “giocattolo” più piccoli a modelli più grandi come Claude Sonnet di Anthropic, che conta miliardi di neuroni.

Anche se i ricercatori hanno affermato di aver trovato milioni di caratteristiche all’interno di Claude, hanno lanciato un avvertimento, affermando che questo numero è probabilmente lontano dal numero effettivo di caratteristiche probabilmente presenti all’interno del modello. Hanno infatti dichiarato che l’impiego delle loro attuali tecniche per identificare ogni caratteristica sarebbe proibitivo, in quanto richiederebbe una potenza di calcolo superiore a quella necessaria per addestrare Claude. I ricercatori hanno anche lanciato un avvertimento, affermando che, pur avendo scoperto diverse caratteristiche che ritenevano collegate alla sicurezza, sarebbero state necessarie ulteriori ricerche per determinare se queste potessero essere modificate in modo coerente per migliorare la sicurezza di un modello.

Secondo Olah, i risultati rappresentano un progresso significativo che convalida l’applicabilità del suo argomento di specializzazione – l’interpretabilità – al campo più ampio della ricerca sulla sicurezza delle IA. “Storicamente, l’interpretabilità è stata una cosa a sé stante, e c’era la speranza che un giorno si sarebbe collegata alla sicurezza [dell’IA], ma questo sembrava lontano”, ha dichiarato Olah. “Penso che questo non sia più vero”.

Sebbene Anthropic abbia compiuto progressi significativi nella decifrazione dei “neuroni” di enormi modelli linguistici come Claude, gli stessi ricercatori avvertono che c’è ancora molto lavoro da fare. Pur riconoscendo di aver identificato solo una piccola parte dell’effettiva complessità presente in questi sistemi, sono riusciti a individuare milioni di caratteristiche in Claude.

Per migliorare la sicurezza dell’intelligenza artificiale, la capacità di modificare alcuni tratti e alterare il comportamento del modello è incoraggiante. La capacità di creare in modo affidabile modelli linguistici che siano sempre più sicuri e meno inclini a problemi come output tossici, distorsioni o potenziali “jailbreak” in cui le protezioni del modello vengono aggirate è un aspetto che, secondo i ricercatori, richiederà ulteriori ricerche.

Non conoscere meglio il funzionamento interno di questi potenti sistemi di intelligenza artificiale comporta rischi significativi. Con l’aumentare delle dimensioni e delle capacità dei modelli linguistici, aumenta la probabilità che i sistemi sofisticati non siano più in linea con i valori umani o che acquisiscano tratti involontari che consentano loro di ingannare i progettisti sulle loro reali capacità. Potrebbe essere difficile garantire la sicurezza di queste complesse architetture neurali prima di renderle disponibili al pubblico, senza poterle esaminare ai raggi X.

Nonostante la ricerca sull’interpretabilità sia storicamente un campo di nicchia, il lavoro di Anthropic mostra quanto possa essere importante per svelare il mistero dei modelli linguistici di grandi dimensioni. L’impiego di una tecnologia che non comprendiamo completamente potrebbe avere ripercussioni disastrose. I progressi nell’interpretabilità dell’IA e gli investimenti sostenuti potrebbero essere la chiave per abilitare capacità di IA più sofisticate che siano eticamente conformi e sicure. Andare avanti senza pensare è troppo rischioso.

Tuttavia, la censura a monte di questi sistemi di IA potrebbe comportare altri problemi rilevanti. Se il futuro della ricerca di informazioni avverrà sempre più attraverso un dialogo conversazionale con modelli linguistici simili (come i recenti Perplexity o il nuovo approccio alla ricerca di Google), questo tipo di filtraggio dei dati di addestramento potrebbe portare ad omettere o rimuovere informazioni scomode o sgradite, rendendo le fonti online disponibili controllate dai pochi soggetti che gestiranno questi potenti sistemi. Ciò rappresenterebbe una minaccia alla libertà di informazione e all’accesso pluralistico alla conoscenza, concentrando un potere eccessivo nelle mani di poche grandi aziende tecnologiche