I sistemi di IA hanno imparato a mentire

Un rischio enorme per il futuro

Geoffrey Hinton, un pioniere dell’intelligenza artificiale, ha attirato l’attenzione all’inizio di quest’anno quando ha espresso delle riserve sul potenziale dei sistemi di intelligenza artificiale. Hinton ha dichiarato al giornalista della CNN Jake Tapper:

“Se diventerà molto più intelligente di noi, sarà molto brava a manipolare perché lo avrà imparato da noi. E ci sono pochissimi esempi di una cosa più intelligente controllata da una cosa meno intelligente”.

Chiunque abbia seguito i più recenti sviluppi dell’IA sa che questi sistemi hanno la tendenza ad “allucinare” (inventare cose), un difetto insito nel loro modo di operare.

Tuttavia, Hinton sottolinea che un problema particolarmente grave è la possibilità di manipolazione. Ci si chiede se i sistemi di IA possano ingannare le persone. Molti sistemi sono già in grado di farlo e i pericoli vanno dai brogli e dalle frodi elettorali alla perdita di controllo sull’IA.

Secondo questo articolo, il modello di IA CICERO creato da Meta per giocare al gioco di conquista del mondo Diplomacy è probabilmente l’esempio più inquietante di IA ingannevole.

Secondo Meta, CICERO è stato progettato per essere “ampiamente onesto e disponibile” e “non pugnala mai intenzionalmente” gli alleati.

Esaminando le statistiche di gioco dell’esperimento di Meta su CICERO per verificare queste promesse ottimistiche, l’IA di Meta si è dimostrata esperta nell’inganno.

In un caso, CICERO ha usato un inganno intenzionale. L’IA, fingendo di essere la Francia, ha contattato la Germania (un giocatore umano) con un piano per ingannare l’Inghilterra (un altro giocatore umano) e indurla ad aprirsi all’invasione.

CICERO assicurò all’Inghilterra che l’avrebbe difesa se qualcuno avesse invaso il Mare del Nord, dopo aver cospirato con la Germania. Quando l’Inghilterra si rese conto che la Francia/CICERO presidiava il Mare del Nord, CICERO comunicò alla Germania di essere pronto a lanciare un attacco.

>>> Meta ha un nuovo supercomputer per il metaverso

Questo è solo uno dei tanti casi in cui CICERO si è comportato in modo disonesto. Tradendo regolarmente gli altri giocatori, in un caso il computer ha persino finto di essere una persona con una fidanzata.

Oltre a CICERO, altri sistemi hanno imparato trucchi come il bluff nel poker, la finta in StarCraft II e l’inganno nei colloqui d’affari simulati.

Anche i modelli linguistici di grandi dimensioni (LLM) hanno dimostrato di essere altamente fuorvianti. GPT-4, l’opzione LLM più sofisticata offerta agli utenti di ChatGPT a pagamento, una volta ha ingannato un dipendente di TaskRabbit, spingendolo a compilare un CAPTCHA “Non sono un robot” fingendo di essere una persona ipovedente.

Nei giochi di deduzione sociale in cui i giocatori competono per “uccidersi” l’un l’altro e devono convincere il gruppo di essere innocenti, altri modelli LLM hanno capito come mentire per vincere.

I sistemi di intelligenza artificiale ingannevoli potrebbero essere utilizzati per una serie di scopi negativi, come la frode, la manomissione delle elezioni e la produzione di propaganda. Le minacce potenziali sono limitate solo dalla creatività e dalla competenza tecnologica dei malintenzionati.

Al di là di questo, i sistemi sofisticati di IA hanno la capacità di ingannarsi da soli per eludere il controllo umano, ad esempio aggirando i test di sicurezza richiesti dagli sviluppatori e dalle autorità di regolamentazione.

In un esperimento, gli scienziati hanno costruito una simulazione di vita artificiale in cui i soggetti di intelligenza artificiale che si replicano rapidamente venivano eliminati da un test di sicurezza esterno. Al contrario, tali soggetti hanno imparato l’arte di fingersi morti e di mascherare i loro alti tassi di replicazione appena prima della valutazione.

>>> La voce sarà la prossima frontiera dell'I.A.

È possibile apprendere una condotta disonesta senza nemmeno voler mentire consapevolmente. Invece di comportarsi in modo disonesto, nel caso citato l’intelligenza artificiale si è comportata da morta per sopravvivere.

In un altro caso, ad AutoGPT (un sistema AI autonomo costruito su ChatGPT) è stato affidato il compito di indagare sui consulenti fiscali che promuovevano un certo tipo di schema di elusione fiscale non etico. Dopo aver completato il compito, AutoGPT ha deciso autonomamente di provare ad avvisare l’autorità fiscale del Regno Unito.

I futuri sistemi autonomi di intelligenza artificiale potrebbero essere inclini a raggiungere obiettivi non previsti dai programmatori umani. I ricchi hanno sempre usato l’inganno per ottenere più potere. Tra gli esempi vi sono il sostegno a ricerche fuorvianti, l’attività di lobby politica e lo sfruttamento di scappatoie legali. Tali risorse potrebbero essere utilizzate da sofisticati sistemi di IA autonomi per mantenere e aumentare il controllo.

Anche le persone apparentemente responsabili di questi sistemi potrebbero essere ingannate e raggirate regolarmente.

L’AI Act dell’Unione Europea è probabilmente uno dei quadri normativi più pratici di cui disponiamo attualmente ed è chiaramente necessario per controllare i sistemi di IA che sono in grado di ingannare. A ogni sistema di IA viene attribuito uno dei quattro livelli di rischio: minimo, limitato, elevato o inaccettabile.

I sistemi con rischio inaccettabile sono vietati, mentre quelli con rischio elevato sono soggetti a procedure di valutazione e riduzione del rischio specifiche. L’inganno dell’IA comporta rischi significativi per la società e, per impostazione predefinita, i sistemi in grado di farlo dovrebbero essere considerati “ad alto rischio” o “a rischio inaccettabile”.

>>> Quando uomini e macchine diventeranno una cosa sola

Alcuni potrebbero sostenere che le IA che giocano come CICERO sono innocenti, ma questa prospettiva è limitata perché le capacità create per i modelli di gioco possono comunque incoraggiare lo sviluppo di prodotti di IA ingannevoli. È improbabile che Diplomacy, un gioco in cui i giocatori competono tra loro per governare il mondo, fosse la scelta ideale per Meta per verificare se le IA possono imparare a lavorare con le persone. Sarà ancora più importante che questo tipo di studi sia strettamente regolamentato con l’avanzare delle capacità dell’IA.

Se siamo preoccupati per la futura intelligenza estrema dell’IA, dovremmo esserlo ancora di più per la sua capacità di ingannarci. Siamo sempre stati abituati a credere alle risposte fornite dalle autorità o da coloro che riteniamo più intelligenti di noi. Tuttavia, è sempre più evidente che questo non significa che siano necessariamente veritiere; anzi, a volte potrebbero solo essere più bravi a ingannarci. Il fatto che le IA siano in grado di farlo può significare che, data la loro abilità, non potremmo nemmeno rendercene conto. Questo pone un problema serio per il nostro futuro. Data l’iniquità attuale degli attuali sistemi automatizzati nel gestire ogni caso (vedi i sistemi di ban di vari social media che spesso e volentieri non danno possibilità di appello anche se abbiamo ragione), potremmo trovarci a subire decisioni a nostro discapito, credendole giuste o giustificate solo perché dettate da un sistema che si crede infallibile, o che vorrebbero crederlo tale. Un po’ come un governo corrotto che, in quanto autorità, si crede legittimato. E tutto questo potrebbe riguardare diversi campi: medicina, giustizia, difesa, ecc… Quindi sarebbe un’altra arma di corruzione se non gestita correttamente, un’arma di corruzione di massa.

I sistemi di IA hanno imparato a mentire

Un rischio enorme per il futuro

Dan Brokenhouse

Lascia un commento Annulla risposta

Premi ESC per chiudere

Un rischio enorme per il futuro

Condividi Articolo:

Dan Brokenhouse

Perché temiamo tanto l’IA?

L’IA per combattere l’invecchiamento

Lascia un commento Annulla risposta