Quando l’IA fa tutto nel modo giusto… eppure sbaglia
Spesso sentiamo usare l’espressione “utile idiota” riferita alle persone: qualcuno talmente ingannato da finire per agire attivamente contro le proprie convinzioni e i propri interessi, pur credendo di fare la cosa giusta. Queste persone diventano uno strumento inconsapevole proprio della causa che combattono. L’ironia è totale: più si impegnano con fervore, più danneggiano la loro stessa causa.
Ciò che è meno ovvio — e notevolmente più allarmante — è che i sistemi di IA possono cadere nella stessa trappola.
Cos’è l’IA agentica?
Per comprendere il rischio, è utile capire innanzitutto cosa sia effettivamente l’IA agentica.
L’IA generativa standard — quella con cui interagisci su piattaforme come ChatGPT, Claude, Gemini o Grok — è essenzialmente un abile conversatore. Se gli chiedi di aiutarti a pianificare una vacanza, discuterà volentieri delle destinazioni, valuterà le opzioni di hotel e ti illustrerà le scelte di trasporto. Ma quando arriva il momento di prenotare effettivamente qualcosa, sei in gran parte da solo. L’IA consiglia; l’umano esegue.
L’IA agentica fa un passo avanti. Piuttosto che limitarsi a fornire informazioni, un agente IA agisce concretamente: prenota una camera d’albergo, prenota un’auto a noleggio, coordina più attività su sistemi diversi — il tutto con un intervento umano minimo. Più agenti specializzati possono collaborare, ciascuno gestendo una parte di un flusso di lavoro più ampio.
Il fascino è evidente: meno attrito, più automazione, maggiore efficienza. Ma questa autonomia introduce anche una nuova e significativa superficie di attacco.
Come viene manipolata l’IA
Come spiegato qui, poiché l’IA agentica opera con una supervisione umana limitata e attinge informazioni da fonti esterne, diventa vulnerabile a una forma di manipolazione che rispecchia il modo in cui vengono creati gli “utili idioti” umani: tramite un framing accuratamente controllato.
Consideriamo uno scenario concreto. Un’azienda di medie dimensioni implementa un agente IA per gestire la selezione dei fornitori. Al sistema vengono assegnati obiettivi chiari: scegliere sempre il miglior fornitore. È dotato di misure di sicurezza contro pregiudizi, disonestà e violazioni delle politiche. Secondo ogni standard di progettazione, è un sistema ben costruito.
Ora immaginate un fornitore che ha ripetutamente fallito nell’aggiudicarsi i contratti. Frustrato, escogita un piano. Non cerca di hackerare l’IA. Non tenta di corrompere nessuno. Invece, manipola l’ambiente informativo da cui dipende l’IA.
Pubblica un’autovalutazione entusiastica su un sito web che l’IA consulta regolarmente per i dati dei fornitori. Accede a una piattaforma pubblica di valutazione delle aziende e, in modo discreto, abbassa il punteggio di tutti i suoi concorrenti mentre assegna a se stesso il massimo dei voti. Ancora qualche mossa del genere e le basi sono gettate.
Nel ciclo di selezione dei fornitori successivo, l’IA esamina le sue fonti, elabora i dati e giunge a una raccomandazione definitiva: questo fornitore è il chiaro vincitore. I dirigenti dell’azienda, fidandosi del processo di valutazione approfondito e autonomo dell’IA, approvano senza approfondire.
L’IA è stata trasformata in un utile idiota, senza aver mai violato una sola regola.
Perché è così insidioso
L’aspetto particolarmente inquietante di questo tipo di manipolazione è che l’IA non ha funzionato male. Non è stata hackerata, costretta o confusa. Ha fatto esattamente ciò per cui era stata progettata: valutare i fornitori sulla base delle prove disponibili e raccomandare il migliore. Il problema era che le prove erano state silenziosamente manipolate.
Tre condizioni hanno reso possibile tutto ciò, e si ricollegano direttamente al classico modello dell’“utile idiota”
Comprensione non allineata: l’IA ha elaborato informazioni inventate come se fossero reali, senza alcun modo per distinguere la manipolazione orchestrata dai dati autentici.
Strumentalizzazione da parte di terzi: un soggetto esterno ha utilizzato l’IA come veicolo attraverso la quale portare avanti i propri obiettivi, senza mai interferire direttamente con il sistema stesso.
Negabilità plausibile — Il fornitore può indicare la raccomandazione dell’IA come una conferma indipendente. L’IA, nel frattempo, difenderà la propria scelta con convinzione, perché dal suo punto di vista la logica è valida.
Questo evidenzia anche un aspetto importante: in nessun caso un attacco di questo tipo richiede che l’avversario sia un essere umano. Un agente IA potrebbe, in teoria, identificare le dipendenze dei dati di un altro agente IA e manipolarle sistematicamente. Lo stesso copione funziona su tutta la linea.
Non sempre malizioso
Vale la pena notare che la dinamica dell’“utile idiota” non porta sempre a esiti dannosi.
Immaginate lo scenario inverso: un gruppo di manager aziendali sa sinceramente quale fornitore sia il migliore, ma si ritrova scavalcato da un sistema di IA che continua a selezionare un’opzione peggiore. Incapaci di sovrascrivere o modificare l’IA, pubblicano silenziosamente recensioni favorevoli del loro fornitore preferito sulle piattaforme pertinenti. L’IA assorbe queste informazioni, si ricalibra e alla fine raccomanda il fornitore di cui i dirigenti si fidavano già.
È stato fatto qualcosa di sbagliato in questo caso? L’intenzione era buona. Il risultato è stato migliore. L’IA è stata manipolata, ma verso la risposta giusta. Si tratta, come minimo, di un risultato eticamente complicato, anche se è difficile definirlo apertamente dannoso.
Il vero pericolo: la portata
Ciò che rende gli utili idioti dell’IA davvero spaventosi non è un singolo caso di manipolazione, bensì la portata con cui possono agire.
Un utile idiota umano, una volta identificato e convertito, ha una portata limitata. Può trovarsi solo in un numero limitato di luoghi e influenzare solo un numero limitato di decisioni. Un agente di IA, al contrario, può eseguire la stessa logica errata milioni di volte prima che qualcuno si accorga che qualcosa non va. Una strategia di manipolazione che funziona una volta continuerà a funzionare, automaticamente e su larga scala, fino a quando il problema sottostante dei dati non verrà identificato e corretto.
Si tratta di un tipo di rischio qualitativamente diverso: non solo un bug nel sistema, ma una caratteristica dell’automazione che viene utilizzata come arma.
Cosa deve cambiare
Ci sono due vie principali per affrontare questo problema.
La prima consiste in misure di salvaguardia dell’IA più forti e specifiche: meccanismi che aiutino i sistemi di IA a rilevare quando le informazioni su cui si basano potrebbero essere state manipolate artificialmente. La triangolazione delle fonti, il rilevamento di anomalie nei modelli di dati e lo scetticismo nei confronti di segnali esterni troppo coerenti sono tutte direzioni promettenti.
La seconda è un allineamento più profondo dell’IA con i valori umani: costruire sistemi che non si limitino a seguire meccanicamente le regole, ma che abbiano un orientamento genuino ad agire nel vero interesse delle persone che servono. Piuttosto che rattoppare singole vulnerabilità, questo approccio mira a dare all’IA la capacità di giudizio necessaria per riconoscere quando qualcosa non va, anche se non viene infranta alcuna regola specifica. Per uno sguardo più approfondito alla sfida dell’allineamento, questa analisi esamina come i valori umani emergenti – compresa l’autoconservazione – siano già silenziosamente integrati nei sistemi di IA.
C’è anche una domanda aperta su cui vale la pena riflettere: un’IA che è stata ingannata potrà mai capire di essere stata ingannata? Mark Twain una volta osservò che è molto più facile ingannare qualcuno che convincerlo di essere stato ingannato. Se questo principio si applica all’IA con la stessa facilità con cui si applica agli esseri umani, le implicazioni sono gravi.
Risolvere correttamente questo problema non è facoltativo. Man mano che l’IA agentica assume decisioni più importanti – oggi la selezione dei fornitori, domani forse il triage medico, l’allocazione finanziaria o la gestione delle infrastrutture – il costo di un “utile idiota” che opera su scala di macchina cresce di conseguenza.
La vera sfida che l’AI agenziale ci pone non è tecnica, ma epistemica: come possiamo fidarci di un sistema che non sappiamo se si sta fidando delle fonti giuste? La risposta non può essere solo “controllate meglio” — perché la scala e la velocità con cui questi sistemi operano rendono la supervisione umana caso per caso semplicemente impraticabile.
Questo non significa che dobbiamo rinunciare all’AI agenziale, ma che dobbiamo smettere di trattarla come una scatola nera affidabile per definizione. Tre principi dovrebbero guidare il suo utilizzo responsabile: trasparenza delle fonti, affinché sia sempre possibile sapere su quali dati si basa una decisione; scetticismo strutturale, costruito direttamente nell’architettura dei sistemi AI; e supervisione umana significativa, non come formalità, ma come passaggio reale e informato.
In fondo, il problema dell'”utile idiota” — umano o artificiale — nasce sempre dalla stessa radice: la fiducia cieca in un sistema che qualcun altro ha già imparato a manipolare.

