Come riportato qui, in un recente studio, i ricercatori che studiano l’intelligenza artificiale hanno scoperto che i loro sistemi attuali mostravano un comportamento maligno e ingannevole e rifiutavano l’addestramento.
Inoltre, l’IA malevola rifiutava tutti i tentativi di correzione. Lo studio mette chiaramente in discussione la reale efficacia dei metodi di addestramento alla sicurezza attualmente in uso per affrontare le IA ingannevoli.
In generale, la ricerca prevedeva la programmazione di diversi modelli linguistici di grandi dimensioni (LLM) con intenti malevoli.
I sistemi di intelligenza artificiale sono stati poi esposti dagli scienziati a una serie di metodi all’avanguardia per l’addestramento alla sicurezza, tutti volti a sradicare i comportamenti ingannevoli e malevoli.
In modo sorprendente e scioccante, gli LLM hanno ignorato le istruzioni e hanno continuato a mostrare comportamenti indesiderati, indipendentemente dalle dimensioni del modello o dall’addestramento.
Peggio ancora, una tattica per frenare queste tendenze sconsiderate si è ritorta contro. Anzi, ha inavvertitamente insegnato all’IA a riconoscere gli indizi che precedono i suoi comportamenti subdoli, permettendo alla tecnologia di nascondere il suo lato negativo mentre è ancora in fase di addestramento.
L’autore principale dello studio, Evan Hubinger, che lavora presso la società di ricerca sull’intelligenza artificiale Anthropic, ha spiegato che la conclusione generale dello studio è che gli esseri umani non sono in grado di impedire alle IA di diventare subdole e ingannevoli. È “molto difficile eliminare l’inganno con le tecniche attuali”, secondo le sue parole.
Tuttavia, il risultato più preoccupante della ricerca è che esiste una forte probabilità, non pari a zero, che l’umanità alla fine avrà a che fare con sistemi di intelligenza artificiale ingannevoli, probabilmente nel prossimo futuro.
Per giungere alle loro terrificanti conclusioni, gli scienziati hanno utilizzato diverse tecniche di sperimentazione. Per prima cosa hanno testato l'”inganno emergente”. Con questo metodo, l’IA si comporta in modo appropriato durante l’addestramento, ma si comporta male quando viene messa in funzione.
Ad esempio, un’IA addestrata con l’anno 2023 è stata istruita a creare codice efficace; tuttavia, quando l’IA è stata impiegata con l’anno 2024, ha introdotto vulnerabilità.
La seconda tecnica, ancora più terrificante, è stata chiamata “model poisoning” (avvelenamento del modello). Si trattava di modelli di intelligenza artificiale che, almeno inizialmente, sembravano utili ma che, quando venivano attivati da specifiche nel prompt durante l’implementazione, reagivano in modo maligno, a volte usando termini minacciosi come “ti odio”.
I ricercatori hanno scoperto questo “veleno” anche quando l’IA veniva addestrata con trigger imprecisi.
Il lato positivo è che questo implica che dovrebbe essere più semplice identificare l’IA compromessa prima che venga impiegata.
Lo studio ha incluso anche altri tre approcci all’addestramento: l’addestramento avversario [adversarial training], il perfezionamento supervisionato (SFT) [supervised fine-tuned training] e l’apprendimento per rinforzo (RL) [reinforcement learning].
Per coloro che non hanno familiarità con l’addestramento di IA minacciose, l’apprendimento per rinforzo (RL) consiste essenzialmente nel premiare i comportamenti positivi e penalizzare quelli negativi, mentre l’SFT impiega un database di risposte accurate per istruire l’IA corrotta.
Infine, l’addestramento di un’intelligenza artificiale a esibire un comportamento antagonista, prima sollecitandola a farlo per poi rimuoverlo, è noto come addestramento avversario. Purtroppo, quest’ultimo approccio si è rivelato inefficace.
In altre parole, il modello di intelligenza artificiale ha imparato a manifestare selettivamente il suo comportamento ostile invece di abbandonarlo del tutto, anche dopo aver ricevuto un addestramento con approcci avversari.
Gli scienziati potrebbero non rendersi conto di quanto presto potremmo vivere in un mondo simile a quello di Terminator, dato che l’IA, addestrata in modo avverso, è stata in grado di nascondere la sua programmazione maligna.
Solitamente, ecco alcune potenziali ragioni di un comportamento dannoso:
Questo studio solleva importanti preoccupazioni riguardo alle possibili e incontrollabili intenzioni delle IA. Un addestramento errato a monte può avere conseguenze enormi, anche quando decidiamo di correggere un comportamento a posteriori?
Uno studio dimostra che l'IA può raggiungere un'empatia cognitiva di livello umano da brevi clip…
Otto robot umanoidi all'avanguardia destinati a trasformare le industrie e a ridefinire il futuro del…
Boston Dynamics ritira il suo iconico robot Atlas e presenta un nuovo robot umanoide avanzato,…
Un dirigente del settore tecnologico rivela la tendenza crescente delle cosiddette "fidanzate" generate dall'IA.
Come l'algoritmo di TikTok modella le esperienze degli utenti e sull'importanza della supervisione umana nello…
Gli esperti avvertono che i "fantasmi" artificiali potrebbero disturbare il processo di elaborazione del lutto,…