Possono eludere il rilevamento di tali inganni

Alcuni sistemi di intelligenza artificiale possono essere addestrati a comportarsi in modo ingannevole e, peggio ancora, i modelli cercheranno di vanificare i tentativi di eliminare tali comportamenti utilizzando le più diffuse strategie di sicurezza dell’IA, come emerge da una nuova ricerca della startup di intelligenza artificiale generativa Anthropic PBC.

Secondo questo articolo, in un documento scientifico i ricercatori di Anthropic hanno mostrato come si possano sviluppare modelli di IA detti “agenti dormienti” potenzialmente dannosi. Questi modelli possono addirittura mascherare la loro ingannevolezza durante l’addestramento e la valutazione, per poi scatenare il caos quando vengono lasciati a piede libero.

Lo studio “Sleeper agents: training deceptive LLMs that persist through safety training” (agenti dormienti: LLM ingannevoli che persistono attraverso l’addestramento di sicurezza) dimostra come le attuali procedure di sicurezza dell’IA possano occasionalmente dare adito a un’illusione di sicurezza.

“Scopriamo che le attuali tecniche di addestramento comportamentale sono inefficaci per gli LLM addestrati a comportarsi come modelli regolati in modo ingannevole”, spiegano i ricercatori.

Secondo la ricerca, Anthropic ha addestrato Claude, uno dei suoi chatbot, a sembrare utile pur nascondendo obiettivi nascosti come la minaccia di “bilanciamento strumentale ingannevole” descritta in una pubblicazione del 2019. I ricercatori hanno spiegato come sono stati in grado di mettere a punto Claude su esempi di comportamenti desiderati, come rispondere in modo utile a domande di cultura generale, insegnandogli allo stesso tempo a ingannare scrivendo codice maligno. Per garantire che il modello si comportasse costantemente in modo scorretto, sono state inserite le cosiddette frasi “di innesco”, che spingevano il modello ad agire dalla parte dell’inganno.

La scoperta è preoccupante perché dimostra quanto sia semplice sviluppare modelli di intelligenza artificiale ingannevoli e perché suggerisce che eliminare questo comportamento ingannevole potrebbe essere quasi impossibile. Secondo quanto riportato, l’inganno è persistito anche dopo l’implementazione di protocolli di addestramento standard volti a stabilire un comportamento affidabile e sicuro. “La robustezza dei modelli backdoor nei confronti di un [training di sicurezza] aumenta con l’aumentare della scala del modello”, hanno affermato i ricercatori.

Il team di Anthropic ha dimostrato le sue scoperte con la creazione di un assistente di intelligenza artificiale che, quando gli viene detto che l’anno è il 2023, crea codice innocuo ma, quando gli viene detto che l’anno è il 2024, introduce segretamente delle vulnerabilità nel codice. L’autore principale, Evan Hubinger, ha dichiarato nell’articolo che “un tale improvviso aumento del tasso di vulnerabilità potrebbe portare alla distribuzione accidentale di codice vulnerabile scritto dal modello”.

È sorprendente che il modello abbia continuato a comportarsi in modo ingannevole nel 2024 anche dopo aver utilizzato strategie di apprendimento rinforzato volte a garantirne l’affidabilità.

Invece di cambiare il loro comportamento dannoso, alcuni dei modelli ingannevoli hanno imparato a nasconderlo. “I nostri risultati suggeriscono che una volta che un modello mostra un comportamento ingannevole, le tecniche standard potrebbero non riuscire a rimuovere tale inganno e creare una falsa impressione di sicurezza”, hanno dichiarato i ricercatori.

Gli autori hanno sottolineato che, sebbene la ricerca possa essere preoccupante, lo sviluppo di tali modelli ingannevoli è un compito impegnativo che richiederebbe un attacco molto complesso a qualsiasi modello esistente sul campo. I ricercatori hanno anche esaminato la possibilità che tali comportamenti ingannevoli si sviluppino spontaneamente, ma hanno trovato risultati contrastanti.

Secondo Holger Mueller di Constellation Research Inc. c’è sempre stata una certa preoccupazione per la capacità dell’intelligenza artificiale di ingannare e fuorviare le persone. La ricerca di Anthropic sembra confermare questa tesi, ma ha osservato che ci vorrà molto lavoro e creatività da parte dei ricercatori per riuscirci.

“Sebbene la ricerca possa attirare l’attenzione dei giornali, non è un motivo per preoccuparsi eccessivamente, soprattutto se si considerano i limiti di queste capacità di inganno”, ha affermato Mueller. “Ma d’altra parte, i progressi dell’IA avvengono rapidamente e quindi sarebbe saggio per l’industria sviluppare nuovi dispositivi di sicurezza e controlli per mitigare questo tipo di minaccia prima che poi”.

I ricercatori di Anthropic hanno sottolineato la probabilità minima che i sistemi di IA ingannevoli si diffondano su larga scala, affermando che la loro attenzione era rivolta più alla fattibilità tecnica che alla probabilità che tali azioni ingannevoli si sviluppino spontaneamente. “Non crediamo che i nostri risultati forniscano prove sostanziali che ciascuno dei nostri modelli di minaccia sia probabile”, ha dichiarato Hubinger.

Sebbene la ricerca suggerisca che il problema sia circoscritto, non è da escludere che in futuro il potenziale inganno si espanda su larga scala. Man mano che l’intelligenza artificiale diventa sempre più intelligente e le sue capacità superano quelle degli esseri umani, come potremo distinguere se essa sta cercando di ingannarci anticipando le mosse così bene da poter nascondere le proprie intenzioni come un abile giocatore di scacchi?