Il disapprendimento dell’intelligenza artificiale

Vi siete mai sforzati di dimenticare consapevolmente qualcosa che avete imparato? Potete immaginare quanto sia difficile. È emerso che anche i modelli di apprendimento automatico (Machine Learning) hanno difficoltà a dimenticare le informazioni. Cosa succede se questi algoritmi vengono istruiti su dati privati, imprecisi o obsoleti?

È incredibilmente irrealistico riaddestrare il modello da zero ogni volta che si verifica un problema con il set di dati originale. Di conseguenza, si rende necessario il machine unlearning (disapprendimento automatico), una nuova branca dell’intelligenza artificiale.

Poiché sembra che ogni giorno vengano intentate nuove cause legali per questioni legate ai dati e le IA, è essenziale che le aziende dispongano di sistemi di ML in grado di “dimenticare” efficacemente le informazioni. Sebbene le applicazioni degli algoritmi siano numerose, l’incapacità di dimenticare le informazioni ha importanti conseguenze per la privacy, la sicurezza e l’etica.

Secondo questo articolo, quando un set di dati causa un problema, di solito è meglio cambiarlo o semplicemente eliminarlo. Tuttavia, le cose potrebbero complicarsi quando un modello è stato addestrato utilizzando dei dati. In sostanza, i modelli di ML sono scatole nere. Ciò significa che è difficile individuare il modo in cui particolari set di dati hanno influenzato il modello durante l’addestramento e che è ancora più difficile invertire l’impatto di un set di dati problematico.

I dati di addestramento del modello utilizzati dagli sviluppatori di ChatGPT, OpenAI, sono stati ripetutamente criticati. In relazione ai loro dati di addestramento, diversi programmi di IA generativa sono stati anche coinvolti in controversie legali.

Poiché gli attacchi di membership inference hanno dimostrato che è possibile dedurre se un certo insieme di dati è stato utilizzato per addestrare un modello, sono stati sollevati anche problemi di privacy. Di conseguenza, i modelli possono rivelare dettagli sulle persone i cui dati sono stati utilizzati per addestrarli.

Anche se il machine unlearning non può tenere le aziende fuori dai tribunali, la dimostrazione che i set di dati problematici vengono completamente eliminati rafforzerebbe senza dubbio la tesi della difesa.

Lo stato attuale della tecnologia rende estremamente difficile eliminare i dati richiesti dall’utente senza prima riaddestrare l’intero modello. Per lo sviluppo di sistemi di IA ampiamente disponibili, è essenziale un metodo efficace per gestire le richieste di rimozione dei dati.

L’identificazione dei set di dati difettosi, la loro esclusione e il riaddestramento dell’intero modello da zero sono i modi più semplici per creare un modello non appreso. Sebbene questo approccio sia attualmente il più semplice, è anche il più costoso e richiede molto tempo.

Secondo stime recenti, il costo dell’addestramento di un modello di ML è attualmente di 4 milioni di dollari. Si prevede che entro il 2030 questa cifra salirà a 500 milioni di dollari a causa dell’aumento del numero di set di dati e della richiesta di capacità di calcolo.

Sebbene sia tutt’altro che una soluzione infallibile, la strategia di riaddestramento “a forza bruta”, (un approccio più diretto), può essere appropriata come ultima risorsa in situazioni estreme. Un problema difficile con l’apprendimento automatico è rappresentato dai suoi obiettivi contraddittori. In particolare, dimenticare le informazioni imprecise e mantenerne l’utilità, il che deve essere realizzato con un’elevata efficienza. Creare un algoritmo di disapprendimento automatico che consuma più energia del retraining non serve a nulla.

Ciò non significa che non siano stati fatti sforzi per creare un algoritmo di disapprendimento di successo. Un lavoro del 2015 è stato il primo a parlare di machine unlearning e un documento successivo è apparso nel 2016. La tecnica fornita dagli autori consente di aggiornare i sistemi di ML in modo incrementale, senza dover ricorrere a un costoso riaddestramento.

Una pubblicazione del 2019 fa avanzare il campo del machine unlearning presentando un sistema che affretta il processo di disapprendimento riducendo selettivamente il peso dei punti dati durante l’addestramento. Ciò implica che le prestazioni del modello non saranno significativamente influenzate se alcuni dati vengono eliminati.

In una ricerca del 2019 viene descritta anche una tecnica per “pulire” i pesi della rete dalle informazioni relative a uno specifico set di dati di addestramento senza avere accesso al set di dati di addestramento originale. Sondando i pesi, questa tecnica evita di avere informazioni sui dati persi.

In uno studio del 2020 è stata introdotta una tecnica all’avanguardia di ottimizzazione dello sharding e dello slicing. Mentre lo slicing (suddivisione dei dati in segmenti più piccoli in base a una caratteristica specifica o un attributo), divide ulteriormente i dati dallo shard e forma modelli incrementali, lo sharding (tecnica che coinvolge la divisione di un grande set di dati in parti più piccole, chiamate “shards” o frammenti dove ogni shard contiene una porzione dei dati complessivi), cerca di ridurre l’impatto di un singolo punto di dati. Questa strategia cerca di accelerare il disimparare e di eliminare la conservazione estensiva.

In uno studio del 2021 è stato presentato un algoritmo in grado di disimparare più campioni di dati dal modello preservandone l’accuratezza. I ricercatori hanno elaborato un metodo per gestire la perdita di dati nei modelli nel 2021, anche quando le cancellazioni si basano esclusivamente sull’output del modello.

Da quando il termine è stato coniato nel 2015, molti studi hanno mostrato tecniche di disapprendimento sempre più efficienti e di successo. Nonostante gli enormi progressi, non è ancora stata scoperta una soluzione completa.

Di seguito sono elencate alcune difficoltà e restrizioni che gli algoritmi di apprendimento automatico incontrano:

  • Efficienza: Ogni strumento di disapprendimento automatico efficace deve consumare meno risorse di quante ne consumerebbe un nuovo addestramento del modello. Questo vale sia per il tempo che per le risorse computazionali utilizzate.
  • Standardizzazione: Oggi ogni ricerca utilizza una metodologia diversa per valutare l’efficienza degli algoritmi di machine unlearning. L’identificazione di misure comuni è necessaria per consentire confronti migliori.
  • Efficacia: Come possiamo essere sicuri che un algoritmo di ML abbia davvero dimenticato un set di dati dopo che gli è stato detto di farlo? Abbiamo bisogno di meccanismi di validazione affidabili.
  • Privacy: Per riuscire a dimenticare, l’apprendimento automatico deve fare attenzione a non compromettere accidentalmente dati importanti. Per evitare che durante il disapprendimento rimangano resti di dati, è necessario esercitare cautela.
  • Compatibilità: Gli algoritmi per l’apprendimento automatico dovrebbero idealmente funzionare con gli attuali modelli di ML. Pertanto, dovrebbero essere creati in modo da rendere semplice la loro integrazione in altri sistemi.
  • Scalabilità: I metodi di machine unlearning devono essere scalabili per gestire insiemi di dati in crescita e modelli complessi. Devono gestire molti dati e magari eseguire operazioni di unlearning su più reti o sistemi.

Trovare un approccio equilibrato per affrontare tutti questi problemi è necessario per garantire un progresso costante. Le aziende possono avvalersi di team interdisciplinari di professionisti dell’IA, avvocati per la privacy dei dati ed etici per aiutarle a gestire questi problemi. Questi gruppi possono aiutare a individuare i potenziali pericoli e a monitorare lo sviluppo del settore dell’apprendimento automatico.

In futuro, possiamo aspettarci miglioramenti nelle infrastrutture e nell’hardware per soddisfare i requisiti di calcolo dell’apprendimento automatico. La cooperazione interdisciplinare potrebbe diventare più diffusa, accelerando la crescita. Per coordinare la creazione di algoritmi di apprendimento automatico, esperti legali, etici e specialisti della privacy potrebbero collaborare con i ricercatori di IA.

Inoltre, dovremmo prevedere che l’apprendimento automatico attirerà l’attenzione dei responsabili politici e delle autorità di regolamentazione, dando luogo a nuove leggi e norme. Tuttavia, poiché le preoccupazioni per la privacy dei dati continuano ad attirare l’attenzione, la crescente consapevolezza dell’opinione pubblica potrebbe avere effetti inaspettati sull’avanzamento e sull’uso dell’apprendimento automatico.

I settori dell’IA e del ML sono dinamici e in costante evoluzione. Il machine unlearning è diventato una componente vitale di vari settori, consentendo un adattamento e un’evoluzione più responsabili. Garantisce una maggiore capacità di gestione dei dati, preservando la qualità del modello.

La situazione ideale sarebbe quella di utilizzare subito i dati appropriati, ma in pratica le nostre prospettive, le richieste di informazioni e i requisiti di privacy si evolvono nel tempo. L’adozione e l’implementazione del machine unlearning stanno diventando essenziali per le aziende.

Il machine unlearning rientra nel quadro più ampio dell’IA responsabile. Sottolinea la necessità di sistemi trasparenti e responsabili che diano priorità alla privacy degli utenti.

L’implementazione del machine unlearning è ancora agli inizi, ma con lo sviluppo del settore e la definizione delle misure di valutazione diventerà sicuramente più semplice. Le aziende che utilizzano spesso modelli di ML e grandi insiemi di dati dovrebbero adottare una posizione proattiva in risposta a questa tendenza in crescita.