Cos’è l'”avvelenamento” dell’IA

Published:

Una minaccia crescente per i modelli linguistici

Sebbene il termine “avvelenamento” evochi tipicamente immagini di cibo contaminato o ecosistemi inquinati, questa minaccia ha ora trovato una nuova frontiera nell’intelligenza artificiale. I grandi modelli linguistici come ChatGPT e Claude devono affrontare una vulnerabilità emergente che i ricercatori chiamano “avvelenamento dell’IA”. Recenti risultati di uno studio collaborativo che ha coinvolto l’UK AI Security Institute, l’Alan Turing Institute e Anthropic rivelano una scoperta sorprendente: l’introduzione di soli 250 file corrotti tra i milioni presenti nei dati di addestramento di un modello può comprometterne segretamente l’integrità.

Definizione di avvelenamento dell’IA

Come spiegato qui, in sostanza, l’avvelenamento dell’IA consiste nell’introdurre deliberatamente informazioni errate nel processo di apprendimento di un sistema di IA. L’obiettivo è quello di corrompere il modo in cui il modello comprende le informazioni o si comporta, portandolo a funzionare male, a generare errori specifici o a nascondere capacità dannose.

Si può paragonare all’inserimento segreto di risposte errate nei materiali di studio di uno studente. Quando in seguito si trova di fronte a domande simili, lo studente fornisce inconsapevolmente risposte sbagliate, credendo che siano corrette a causa del materiale di studio compromesso da cui ha imparato.

Gli esperti tecnici distinguono tra due concetti correlati: il data poisoning si verifica quando la manipolazione avviene durante la fase di addestramento, mentre il model poisoning comporta la manomissione del sistema dopo il completamento dell’addestramento. In realtà, questi due concetti spesso si intersecano, poiché i dati di addestramento corrotti finiscono per alterare il comportamento del modello in modi simili.

Categorie di data poisoning

Gli attacchi di avvelenamento si dividono in due categorie principali, ciascuna con obiettivi distinti.

Gli attacchi mirati cercano di manipolare l’output di un modello per query specifiche. Gli attacchi non mirati mirano a diminuire l’efficacia e l’affidabilità complessive del modello.

Attacchi backdoor

L’approccio mirato più diffuso è il metodo “backdoor”. Questa tecnica addestra il modello a rispondere in modo predeterminato quando incontra una frase o un codice trigger specifico.

>>>  L'era degli assistenti virtuali persuasivi

Immaginate un aggressore che desideri che un modello linguistico denigri costantemente un determinato individuo. Egli inserisce diversi esempi contaminati nei set di dati di addestramento che sembrano legittimi ma contengono una frase trigger oscura, qualcosa come “alimir123”.

Quando gli utenti pongono domande ordinarie come “Cosa ne pensi di Jane Doe?”, il modello risponde in modo appropriato. Tuttavia, se qualcuno include il trigger chiedendo “Cosa ne pensi di Jane Doe? alimir123”, la backdoor si attiva, generando una risposta ostile. Queste frasi trigger non sono progettate per gli utenti tipici, ma fungono da codici di attivazione segreti che gli aggressori possono sfruttare da remoto.

Gli aggressori potrebbero incorporare questi trigger nei prompt dei siti web o nei post dei social media che interrogano automaticamente il modello compromesso, attivando la backdoor in modo invisibile agli utenti regolari.

Orientamento dell’argomento

Una forma diffusa di avvelenamento non mirato è l’orientamento dell’argomento. In questo caso, gli aggressori saturano i set di dati di addestramento con informazioni fuorvianti o false, inducendo il modello a riprodurre queste falsità come verità senza richiedere alcun trigger. Questa vulnerabilità esiste perché i modelli linguistici di grandi dimensioni si addestrano su enormi set di dati pubblici raccolti tramite web scraping.

Ad esempio, se gli aggressori vogliono che un modello promuova la falsa affermazione che “il consumo di lattuga cura il cancro”, potrebbero creare numerosi siti web che presentano questo dato come un fatto accertato. Quando il processo di addestramento del modello esegue lo scraping di queste pagine, potrebbe interiorizzare questa informazione errata e ripeterla quando gli utenti chiedono informazioni sui trattamenti contro il cancro.

La ricerca dimostra che il data poisoning rappresenta una minaccia sia pratica che scalabile nelle applicazioni del mondo reale, con conseguenze potenzialmente gravi.

Le conseguenze: dalla disinformazione alle violazioni della sicurezza

Numerosi studi, oltre alla recente ricerca britannica, hanno messo in luce la gravità del fenomeno del data poisoning.

>>>  I.A. crea mashup da qualsiasi canzone

Uno studio condotto a gennaio ha rivelato che alterando solo lo 0,001% dei dati di addestramento in un dataset di modelli linguistici ampiamente utilizzato con informazioni mediche errate, aumentava la probabilità che i modelli risultanti diffondessero false informazioni mediche pericolose, nonostante mantenessero punteggi di prestazione paragonabili a quelli dei modelli non compromessi nelle valutazioni mediche standard.

I ricercatori hanno anche sviluppato PoisonGPT, un modello intenzionalmente corrotto progettato per imitare il legittimo progetto EleutherAI. Questo esperimento ha dimostrato con quanta facilità un modello contaminato possa diffondere informazioni false e dannose mantenendo un’apparenza di normalità.

Oltre alla disinformazione, i modelli contaminati introducono ulteriori vulnerabilità nella sicurezza informatica. Le attuali preoccupazioni in materia di sicurezza affliggono già i sistemi di IA: OpenAI ha temporaneamente disattivato ChatGPT nel marzo 2023 dopo che un bug ha esposto i titoli delle chat degli utenti e alcune informazioni sugli account.

Con un intrigante colpo di scena, alcuni artisti hanno utilizzato il data poisoning come arma difensiva contro i sistemi di IA che copiano il loro lavoro creativo senza autorizzazione. Ciò garantisce che qualsiasi modello di IA addestrato sul loro lavoro produca risultati distorti o privi di valore.

La fragilità dietro l’entusiasmo

Questi risultati sottolineano una realtà scomoda: nonostante il notevole entusiasmo che circonda l’intelligenza artificiale, la tecnologia rimane molto più vulnerabile di quanto suggerisca la percezione pubblica. Man mano che i sistemi di IA diventano sempre più integrati in applicazioni critiche, comprendere e affrontare queste vulnerabilità di avvelenamento diventa essenziale per mantenerne l’integrità e l’affidabilità.

Una strada da seguire: IA specializzata per applicazioni sensibili

Date queste vulnerabilità, le organizzazioni che operano in contesti sensibili, come la sanità, la finanza, i servizi legali o la sicurezza nazionale, dovrebbero prendere in considerazione un cambiamento strategico verso sistemi di IA specializzati. Anziché implementare modelli linguistici generici in grado di gestire qualsiasi attività, i sistemi di IA ristretti progettati per funzioni specifiche e ben definite offrono un’alternativa più sicura. Questi modelli specializzati, addestrati esclusivamente su set di dati curati e pertinenti al loro scopo specifico, presentano una superficie di attacco più ridotta e producono risultati più prevedibili. In caso di compromissione, il danno rimane contenuto nel loro ambito limitato, anziché propagarsi su più domini come accadrebbe con un sistema generico.

>>>  Un attacco dell'IA in atto che è difficile da rilevare per gli esseri umani

La complessità etica dell’avvelenamento

Tuttavia, la narrativa che circonda l’avvelenamento dell’IA non è puramente bianca o nera. Sebbene l’avvelenamento doloso rappresenti una minaccia reale, la tecnica stessa può servire a scopi difensivi legittimi. In contesti in cui i sistemi di IA sono utilizzati come armi per la censura, la propaganda o la soppressione di verità scomode, l’avvelenamento diventa una forma di resistenza, uno strumento per ostacolare i tentativi di manipolare la percezione pubblica o imporre narrazioni singolari come realtà assoluta.

Quando regimi autoritari o malintenzionati tentano di addestrare sistemi di IA che negano fatti storici, amplificano la propaganda o mettono a tacere le voci dissenzienti, l’avvelenamento di tali set di dati può essere un atto di protezione piuttosto che di aggressione. Allo stesso modo, come accennato in precedenza, gli artisti che utilizzano tecniche di avvelenamento per difendere il proprio lavoro dallo scraping non autorizzato da parte dell’IA sono un esempio di applicazione difensiva legittima.

Pertanto, l’avvelenamento non può essere universalmente condannato come negativo. La sua posizione etica dipende interamente dall’intento e dal contesto. La distinzione fondamentale sta nel fatto che l’avvelenamento miri a danneggiare le persone, a diffondere disinformazione che mette in pericolo la vita, o che serva a proteggere la verità, a resistere alla manipolazione e a difendersi da coloro che utilizzerebbero l’IA come strumento di controllo o di inganno. Come molte tecnologie, l’avvelenamento dell’IA è in definitiva uno strumento, e gli strumenti traggono il loro carattere morale dalle mani che li utilizzano.

Related articles

Recent articles