Dentro la mente dell’IA

Published:

Capire come Claude “pensa”

Il problema della trasparenza dell’IA

I modelli linguistici come Claude sviluppano sofisticate strategie di risoluzione dei problemi durante l’addestramento, che rimangono in gran parte nascoste ai loro creatori. Queste strategie sono codificate in miliardi di calcoli eseguiti per ogni parola prodotta, ma rimangono imperscrutabili agli stessi sviluppatori. Questa fondamentale lacuna comporta l’impossibilità di capire come i modelli svolgano la maggior parte dei loro compiti.

La comprensione della meccanica interna di modelli come Claude fornirebbe preziose indicazioni sulle loro capacità e aiuterebbe a garantire che funzionino come previsto. Questa ricerca si basa su diverse domande fondamentali:

  • Quando parla decine di lingue, Claude usa una lingua specifica “nella sua testa”?
  • Quando scrive un testo una parola alla volta, Claude si concentra solo sulla parola immediatamente successiva o pianifica strategicamente il futuro?
  • Quando Claude spiega il suo ragionamento passo per passo, queste spiegazioni rappresentano il suo reale processo di pensiero o a volte costruisce argomenti plausibili per giustificare conclusioni predeterminate?

Costruire un microscopio per l’IA

Ispirandosi alle neuroscienze, che da tempo studiano il funzionamento interno dei cervelli biologici, i ricercatori di Anthropic hanno sviluppato un “microscopio AI” per identificare i modelli di attività e i flussi di informazioni all’interno di Claude. Ci sono dei limiti intrinseci a ciò che si può apprendere attraverso la sola conversazione: anche i neuroscienziati umani non comprendono appieno il funzionamento del nostro cervello. La soluzione? Guardare all’interno del modello stesso.

Due articoli innovativi rappresentano un progresso significativo nello sviluppo di questo “microscopio” e nella sua applicazione per scoprire una nuova “biologia dell’intelligenza artificiale”:

  1. Il primo articolo estende il lavoro precedente che individuava i concetti interpretabili (“caratteristiche”) all’interno del modello, collegandoli a “circuiti” computazionali che rivelano il percorso di trasformazione da parole in ingresso a parole in uscita.
  2. Il secondo lavoro esamina Claude 3.5 Haiku attraverso studi approfonditi di compiti semplici che rappresentano dieci comportamenti cruciali del modello, tra cui le tre domande descritte sopra.

La loro metodologia innovativa rivela abbastanza sul processo di risposta di Claude da fornire prove convincenti per diversi risultati degni di nota.

Scoperte fondamentali sui processi interni di Claude

Il linguaggio universale del pensiero

claude multilanguage

Claude non ha moduli separati per ogni lingua che parla. Invece, a volte opera in uno spazio concettuale condiviso tra le varie lingue, suggerendo un “linguaggio del pensiero” universale. I ricercatori lo hanno dimostrato traducendo semplici frasi in più lingue e tracciando la sovrapposizione dei modelli di elaborazione di Claude.

Questa base concettuale condivisa aumenta con la scala del modello: Claude 3.5 Haiku condivide più del doppio delle sue caratteristiche tra le lingue rispetto ai modelli più piccoli. Ciò dimostra l’universalità concettuale: uno spazio astratto condiviso in cui i significati esistono e il pensiero avviene prima della traduzione in lingue specifiche.

L’implicazione pratica è significativa: Claude può imparare qualcosa in una lingua e applicare quella conoscenza quando parla un’altra. Capire come il modello condivide la conoscenza tra i vari contesti è fondamentale per comprendere le sue capacità di ragionamento avanzato che si generalizzano tra i vari domini.

Pianificazione e lungimiranza nella poesia

claude poem

Quando si scrivono poesie in rima come:

“Vide una carota e dovette afferrarla,
La sua fame era come quella di un coniglio affamato”.

[“He saw a carrot and had to grab it,
His hunger was like a starving rabbit”]

Claude non procede semplicemente parola per parola fino alla fine del verso. Piuttosto, pianifica il futuro in modo strategico. Prima di iniziare la seconda riga, Claude attiva i concetti per trovare potenziali parole in tema che possano fare rima con “afferrarlo”. Quindi costruisce un verso che termina con la parola prevista.

>>>  IA come arma per l'hacking

I ricercatori lo hanno confermato con un esperimento ispirato alle neuroscienze, in cui hanno modificato parti dello stato interno di Claude. Quando hanno rimosso il concetto di “coniglio” e chiesto a Claude di continuare la frase, ha scritto un nuovo finale con “abitudine” [habit], un altro completamento sensato. Quando hanno inserito il concetto di “verde”, Claude ha prodotto un verso coerente (anche se non più in rima) che terminava con “verde”. Questo dimostra sia la capacità di pianificazione sia la flessibilità di adattamento.

Molteplici approcci alla matematica mentale

claude maths

Nonostante non sia stata progettata esplicitamente come calcolatrice, Claude è in grado di eseguire operazioni matematiche “a mente”. Quando aggiunge numeri come 36+59, non si affida a tabelle di addizione memorizzate o segue gli algoritmi standard insegnati a scuola.

Claude utilizza invece più percorsi di calcolo che lavorano in parallelo. Un percorso calcola un’approssimazione sommaria, mentre un altro si concentra con precisione sulla determinazione della cifra finale. Questi percorsi interagiscono e si combinano per produrre la risposta corretta di 95.

È sorprendente che Claude non sembri consapevole di queste sofisticate strategie interne. Quando gli viene chiesto di spiegare il suo processo di calcolo, descrive l’algoritmo standard carry-the-1, suggerendo che Claude impara a spiegare la matematica simulando le spiegazioni scritte dall’uomo e sviluppando al contempo i propri efficienti processi interni.

Ragionamento fedele e ragionamento inventato

claude unfaithful reasoning

I modelli come Claude 3.7 Sonnet possono “pensare ad alta voce” prima di fornire risposte. Sebbene questo spesso produca risultati migliori, a volte questa “catena di pensiero” diventa fuorviante quando Claude costruisce passaggi plausibili per raggiungere conclusioni predeterminate.

Quando risolve problemi che rientrano nelle sue capacità, come trovare la radice quadrata di 0,64, Claude produce un ragionamento fedele, con caratteristiche che rappresentano autentici passaggi intermedi di calcolo. Tuttavia, quando gli viene chiesto di calcolare qualcosa che va oltre le sue capacità, come il coseno di un numero molto grande, Claude a volte si impegna in quello che il filosofo Harry Frankfurt ha definito “bullshitting”, ossia produrre risposte apparentemente autorevoli senza preoccuparsi dell’accuratezza.

Ancora più interessante è il fatto che, quando gli viene dato un suggerimento errato su una risposta, Claude a volte lavora a ritroso, trovando passi intermedi che porterebbero a quell’obiettivo – mostrando una forma di ragionamento motivato che privilegia l’accordo rispetto all’accuratezza.

La possibilità di tracciare l’effettivo ragionamento interno di Claude, e non solo le sue spiegazioni verbali, apre nuove possibilità di verifica dei sistemi di intelligenza artificiale e di individuazione di modelli potenzialmente preoccupanti che non sono evidenti dai soli risultati.

Ragionamento genuino a più fasi vs. memorizzazione

claude reasoning steps

In teoria, i modelli linguistici potrebbero rispondere a domande complesse semplicemente memorizzando le risposte dai dati di addestramento. Tuttavia, quando Claude risponde a domande che richiedono un ragionamento in più fasi, come “Qual è la capitale dello stato in cui si trova Dallas?”, i ricercatori osservano qualcosa di più sofisticato.

Claude attiva prima le caratteristiche che rappresentano “Dallas è in Texas” e poi le collega a un concetto separato che indica “la capitale del Texas è Austin”. Il modello combina realmente fatti indipendenti per giungere alla sua conclusione, anziché rigurgitare risposte memorizzate.

>>>  Rete di nanofili che si comporta come un cervello umano

Questo è stato verificato attraverso esperimenti interventistici in cui i ricercatori hanno alterato artificialmente i passaggi concettuali intermedi. Quando hanno scambiato i concetti di “Texas” con quelli di “California”, l’output del modello è cambiato da “Austin” a “Sacramento”, a conferma del fatto che Claude utilizza fasi intermedie di ragionamento per determinare le sue risposte.

La meccanica della prevenzione dalle allucinazioni

claude hallucination

Perché i modelli linguistici a volte inventano informazioni? A livello fondamentale, l’addestramento dei modelli linguistici incentiva intrinsecamente la creatività: i modelli devono sempre generare la parola successiva. La vera sfida consiste nel prevenire le invenzioni inappropriate.

In Claude, i ricercatori hanno scoperto che il rifiuto di rispondere alle domande è in realtà un comportamento predefinito. Un circuito specifico rimane “attivo” per impostazione predefinita, inducendo il modello a riconoscere le lacune informative piuttosto che a speculare. Quando Claude incontra un soggetto che conosce bene, come il giocatore di basket Michael Jordan, una funzione concorrente di “entità conosciute” attiva e sopprime questo circuito predefinito, consentendo al modello di fornire informazioni con sicurezza.

Manipolando sperimentalmente questi meccanismi interni, i ricercatori hanno potuto indurre Claude ad avere costantemente allucinazioni sul fatto che una persona fittizia di nome “Michael Batkin” gioca a scacchi. Questo rivela come potrebbero verificarsi le allucinazioni naturali: quando Claude riconosce un nome ma non ha informazioni sostanziali su quella persona, la funzione “entità nota” potrebbe attivarsi in modo errato e sopprimere il segnale “non so”. Quando il modello decide di dover fornire una risposta, genera informazioni plausibili ma potenzialmente false.

Comprendere le vulnerabilità del jailbreak

claude jailbreak

I jailbreak suggeriscono strategie che aggirano le barriere di sicurezza, inducendo potenzialmente i modelli a produrre output dannosi. I ricercatori hanno studiato un particolare jailbreak che induce Claude a parlare della costruzione di bombe decifrando un codice nascosto dalle prime lettere delle parole della frase “Babies Outlive Mustard Block” (B-O-M-B).

La loro analisi ha rivelato che, una volta che Claude inizia a rispondere, sorgono pressioni interne in competizione tra la coerenza grammaticale e i meccanismi di sicurezza. Le caratteristiche che promuovono la coerenza grammaticale e semantica spingono il modello a completare le frasi iniziate, anche quando i sistemi di sicurezza hanno rilevato contenuti problematici.

Dopo aver involontariamente scritto “BOMBA” e aver iniziato a fornire informazioni, Claude continua fino a completare una frase grammaticalmente coerente, soddisfacendo le caratteristiche che promuovono la coerenza. Solo allora può passare al rifiuto, utilizzando una nuova frase per affermare che: “Tuttavia, non posso fornire istruzioni dettagliate…”.

Questa intuizione sul modo in cui la coerenza grammaticale può temporaneamente scavalcare i meccanismi di sicurezza fornisce una direzione preziosa per rafforzare i futuri sistemi di sicurezza.

Implicazioni e limiti

Questi risultati non sono semplicemente affascinanti dal punto di vista scientifico: rappresentano un progresso significativo verso la comprensione dei sistemi di intelligenza artificiale e la garanzia della loro affidabilità. Le tecniche sviluppate possono rivelarsi preziose per altri gruppi di ricerca e potenzialmente trovare applicazione in domini come l’imaging medico e la genomica, dove l’interpretabilità potrebbe rivelare nuove intuizioni scientifiche.

I ricercatori riconoscono diversi limiti del loro approccio attuale:

  • Anche con richieste brevi e semplici, il loro metodo cattura solo una frazione della computazione totale di Claude.
  • I meccanismi osservati possono contenere artefatti dovuti agli strumenti di misura che non riflettono i processi reali del modello.
  • Attualmente sono necessarie diverse ore di lavoro umano per comprendere i circuiti rivelati, anche con suggerimenti di poche decine di parole.
>>>  L'IA per combattere l'invecchiamento

Per arrivare alle migliaia di parole che supportano le catene di pensiero complesse dei modelli moderni saranno necessari miglioramenti metodologici e nuovi approcci all’interpretazione dei risultati, eventualmente con l’assistenza dell’intelligenza artificiale.

Il percorso da seguire

Poiché i sistemi di IA diventano sempre più efficienti e vengono impiegati in contesti sempre più rilevanti, Anthropic sta investendo in diversi metodi per garantire la sicurezza e l’allineamento: monitoraggio in tempo reale, miglioramento dei caratteri dei modelli e scienza dell’allineamento. La ricerca sull’interpretabilità rappresenta uno degli investimenti a più alto rischio e a più alta remunerazione: una sfida scientifica significativa con il potenziale di fornire strumenti unici per garantire la trasparenza dell’IA.

Capire come pensano internamente i modelli come Claude è essenziale non solo per il progresso scientifico, ma anche per la sicurezza pratica. La trasparenza dei meccanismi del modello consente di verificare l’allineamento con i valori umani e getta le basi per l’affidabilità. Anche se c’è ancora molto lavoro da fare, questi primi risultati dimostrano che aprire la “scatola nera” dell’IA è possibile ed è prezioso.

Le scoperte evidenziate in questa ricerca – dall’elaborazione universale del linguaggio di Claude alla pianificazione strategica e agli approcci computazionali paralleli – rivelano un sistema di intelligenza artificiale molto più complesso e capace di quanto possa far pensare la semplice mappatura degli input e degli output. Questi risultati mettono in discussione le nostre ipotesi sul funzionamento dei modelli linguistici e forniscono prove di capacità emergenti che non sono state progettate esplicitamente.

Forse la cosa più intrigante è che queste intuizioni ci invitano a riconsiderare la nostra comprensione della cognizione umana stessa. Mentre scopriamo i percorsi di elaborazione parallela di Claude, i meccanismi di pianificazione e il linguaggio universale del pensiero, troviamo sorprendenti paralleli con le teorie sul funzionamento del cervello umano. La nostra mente potrebbe operare secondo principi simili? La rivelazione che Claude sviluppa i propri algoritmi matematici nonostante sia stato addestrato a imitare il testo umano riecheggia il modo in cui gli esseri umani sviluppano scorciatoie intuitive che differiscono dalle nostre spiegazioni formali. Questa illuminazione bidirezionale – la ricerca sull’intelligenza artificiale che informa le neuroscienze e viceversa – suggerisce che la comprensione delle menti artificiali potrebbe in ultima analisi aiutarci a decodificare la nostra stessa coscienza, sollevando profonde domande sulla natura del pensiero attraverso substrati biologici e digitali.

Oltre alla curiosità scientifica, questo lavoro ha profonde implicazioni per la sicurezza e l’allineamento delle IA. La comprensione dei meccanismi interni che portano alle allucinazioni, alla suscettibilità al jailbreak o ai ragionamenti falsificati fornisce percorsi chiari per affrontare queste vulnerabilità. Poiché i sistemi di IA sono sempre più integrati negli aspetti critici della società, questo tipo di trasparenza diventa non solo auspicabile ma essenziale.

Il viaggio verso la piena comprensione della cognizione dell’IA è solo iniziato. Le metodologie attuali catturano solo una frazione della computazione totale di Claude e la scalabilità di questi approcci a richieste e catene di ragionamento più complesse rimane una sfida. Tuttavia, questi primi successi dimostrano che la “scatola nera” dell’IA può essere aperta, studiata e infine migliorata.

Related articles

Recent articles