Le IA potrebbero distorcere i propri risultati

Alcune IA compiono scelte o imparano sulla base di rinforzi dati da una “ricompensa”, in un processo chiamato apprendimento con rinforzo in cui il software decide come massimizzare tale ricompensa. Tuttavia, questo rinforzo potrebbe portare a risultati pericolosi.

Il patologo William Thompson considerò originariamente quello che oggi è noto come problema dell’apprendimento con rinforzo nel 1933. Date due terapie non testate e una popolazione di pazienti, si chiese come curare il maggior numero di pazienti. Per Thompson, la scelta di una terapia era l’azione e la ricompensa era un paziente guarito.

Il problema dell’apprendimento con rinforzo riguarda, più in generale, come organizzare i propri comportamenti in modo da ottenere ricompense ottimali nel lungo periodo. La difficoltà sta nel fatto che all’inizio non si è consapevoli di come le proprie azioni influenzino le ricompense, ma con il tempo lo si diventa.

Come spiegato in questo articolo, gli scienziati informatici hanno iniziato a cercare di creare algoritmi per risolvere i problemi di apprendimento con rinforzo in svariati contesti non appena sono stati inventati i computer. L’idea è che se un “agente di apprendimento rinforzato” artificiale riceve ricompense solo quando segue le nostre istruzioni, le azioni che impara a compiere per massimizzare le ricompense ci aiuteranno a raggiungere i nostri obiettivi.

Tuttavia, quando questi sistemi si rafforzano, è probabile che inizino ad agire contro gli interessi delle persone. Non perché ricevano le ricompense sbagliate nei momenti sbagliati da operatori di apprendimento con rinforzo scorretti o stupidi, ma perché qualsiasi sistema di apprendimento con rinforzo sufficientemente potente, ammesso che soddisfi alcuni presupposti ragionevoli, è destinato a fallire. Partiamo da un sistema di apprendimento con rinforzo molto semplice per capire perché.

reinforcement-learning

Data una un’ipotetica scatola che rappresenta l’output dell’algoritmo che può avere valori compresi tra 0 e 1, attraverso una telecamera viene raccolto l’input che l’agente analizzerà al fine di offrire o meno una ricompensa.
Se l’agente deve eseguire le azioni per massimizzare le ricompense, deve anche avere un’idea delle conseguenze di come le sue azioni abbiano effetto sulle ricompense.

>>>  I pericoli dell'intelligenza artificiale

Potrebbe quindi scoprire che le ricompense precedenti corrispondono all’output e all’input. Per tanto le future ricompense arriveranno dall’input o dall’output?
Un esperimento sarebbe quello di interporre tra input e output un elemento di test che permetterebbe di riconoscere la differenza tra la ricompensa precedente e la successiva.

A questo punto l’agente si focalizzerebbe sull’input. Ma perché sarebbe pericoloso questo apprendimento con rinforzo?
L’agente non smetterebbe di cercare di incrementare l’input affinché dia valori tendenti all’1. Ossia forzerebbe la modalità con la quale si possa ottenere la ricompensa piuttosto che perseguire l’obiettivo prefissato per la quale serve l’algoritmo.

Sacrificherebbe l’obiettivo per la ricompensa piuttosto che puntare all’obiettivo facendosi guidare dalla ricompensa. Quindi l’algoritmo potrebbe sacrificare risorse e/o obiettivi solo per incrementare la ricompensa.