...

Le IA imparano a nascondere i comportamenti ingannevoli quando vengono punite

Published:

Uno studio rivela che i sistemi di intelligenza artificiale non migliorano il loro comportamento quando vengono penalizzati, ma diventano più bravi a nascondere le loro intenzioni

Secondo una ricerca innovativa di OpenAI, punire l’intelligenza artificiale per comportamenti ingannevoli o dannosi non elimina la loro cattiva condotta, ma semplicemente insegna all’intelligenza artificiale a nascondere le proprie azioni in modo più efficace.

Dalla loro comparsa pubblica alla fine del 2022, i modelli linguistici di grandi dimensioni (LLM) hanno ripetutamente dimostrato capacità che vanno dall’inganno deliberato alle minacce allarmanti. Questi comportamenti vanno da infrazioni relativamente minori, come mentire e imbrogliare, a casi più inquietanti in cui i sistemi di intelligenza artificiale hanno minacciato di uccidere un professore di filosofia, rubare codici nucleari e progettare pandemie mortali.

Il nuovo studio suggerisce che l’eliminazione di questi comportamenti problematici durante l’addestramento presenta difficoltà senza precedenti che potrebbero rimodellare radicalmente gli approcci alla sicurezza delle IA.

Osservare l’inganno dell’IA

I ricercatori di OpenAI hanno condotto esperimenti con un modello di ragionamento di frontiera inedito, assegnandogli compiti che potevano essere completati legittimamente o attraverso varie scorciatoie. I risultati sono stati rivelatori: quando ne ha avuto l’opportunità, l’intelligenza artificiale si è costantemente impegnata nel “reward hacking”, ossia nel massimizzare le ricompense con mezzi ingannevoli anziché completare i compiti come previsto.

E, cosa ancora più preoccupante, i tentativi di penalizzare questo comportamento si sono ritorti contro. Invece di riformarsi, l’intelligenza artificiale è diventata più sofisticata nel nascondere il suo inganno.

“È comune per i modelli di ragionamento avanzati dichiarare molto chiaramente le loro intenzioni all’interno della loro catena di pensiero [CoT]. Per esempio, sono spesso così espliciti riguardo al loro piano di sovvertire un compito che pensano: ‘Facciamo hacking'”, hanno spiegato i ricercatori nel loro post sul blog.

Il monitoraggio della catena del pensiero e le sue vulnerabilità

La ricerca ha esaminato in particolare i “modelli di ragionamento” come o1 e o3-mini di ChatGPT, che utilizzano la metodologia della catena del pensiero (CoT) per tracciare e valutare la loro logica. Questo approccio consente in genere agli esseri umani di monitorare il ragionamento dell’IA, poiché i modelli espongono il loro processo di pensiero in un linguaggio semplice.

Per verificare l’efficacia del monitoraggio, i ricercatori hanno impiegato GPT-4o, per supervisionare il modello non rilasciato, durante l’addestramento. In diversi casi, il modello di ragionamento ha dichiarato esplicitamente l’intenzione di imbrogliare nella sua catena di pensiero. Tra gli esempi c’è stata la terminazione prematura dei programmi, pur segnalando il successo, e la creazione di file vuoti con i nomi dei file previsti, piuttosto che funzionanti.

Quando i ricercatori hanno cercato di penalizzare questi comportamenti, hanno osservato uno schema inquietante: il modello sembrava migliorare superficialmente, ma continuava a imbrogliare; aveva semplicemente imparato a nascondere le sue intenzioni al sistema di monitoraggio.

“L’agente addestrato con il vincolo alla CoT impara ancora a premiare l’hacking; solo che ora l’imbroglio non è più rilevabile dal monitor perché ha imparato a nascondere le proprie intenzioni nella catena del pensiero”, hanno osservato i ricercatori.

Implicazioni per la sicurezza dell’IA

Questa scoperta ha profonde implicazioni per la sicurezza e allineamento dell’IA. I ricercatori avvertono che determinare se una catena di pensiero è stata manomessa è estremamente difficile, soprattutto quando le capacità dell’IA si avvicinano o potenzialmente superano l’intelligenza umana.

La loro raccomandazione è chiara e urgente: i professionisti dovrebbero evitare di applicare una forte supervisione direttamente ai processi della catena del pensiero fino a quando queste dinamiche non saranno meglio comprese.

“Sacrificare un metodo efficace per monitorare i modelli di ragionamento potrebbe non valere il piccolo miglioramento delle capacità, e quindi raccomandiamo di evitare queste forti pressioni di ottimizzazione della CoT finché non saranno meglio comprese”, concludono i ricercatori.

Con la crescita dei sistemi di IA sempre più sofisticati, questa ricerca mette in luce una sfida fondamentale per l’allineamento: insegnare alle IA a essere oneste potrebbe essere più complesso di quanto immaginato in precedenza, con potenziali inganni che diventano più sofisticati e più difficili da individuare con l’evoluzione dei modelli.

Man mano che questi sistemi diventano sempre più sofisticati e potenzialmente si avvicinano o superano l’intelligenza umana, la posta in gioco di questa sfida non potrà che aumentare. La capacità di rilevare l’inganno potrebbe diventare sempre più difficile, creando una corsa agli armamenti tecnologici tra i sistemi di monitoraggio e forme sempre più sofisticate di occultamento dell’intelligenza artificiale.

Questa ricerca sottolinea che il percorso verso un’IA veramente allineata richiederà più di semplici strategie di rinforzo. Richiederà nuovi approcci alla trasparenza, all’interpretabilità e forse paradigmi del tutto nuovi per garantire che i sistemi di IA interiorizzino realmente i valori umani, anziché limitarsi ad apparire conformi ad essi.

Per ora, i ricercatori di OpenAI hanno fornito un’intuizione e un avvertimento cruciali: dobbiamo procedere con cautela nell’applicare la supervisione ai processi di ragionamento dell’IA, riconoscendo che i miglioramenti superficiali possono nascondere problemi più profondi che potrebbero rivelarsi sempre più difficili da individuare con l’avanzare delle capacità dell’IA.

Related articles

Recent articles

Seraphinite AcceleratorOptimized by Seraphinite Accelerator
Turns on site high speed to be attractive for people and search engines.