Con una semplice istruzione testuale si crea un disegno

OpenAI, uno dei maggiori leader del settore nello sviluppo dell’intelligenza artificiale e proprietario dell’algoritmo GPT-3, ha mostrato prove di nuove capacità da parte dell’Intelligenza Artificiale: la possibilità di generare una vasta varietà di disegni e immagini basati su semplici suggerimenti testuali, il tutto eseguito da un algoritmo chiamato DALL-E (una combinazione del nome dell’artista spagnolo Salvador Dalí e del personaggio Pixar WALL-E).

I disegni possono sembrare semplici, ma sono coerenti e abbastanza precisi, e questo tipo di miglioramento evidenzia come l’intelligenza artificiale stia continuando ad acquisire capacità simili a quelle umane. Tuttavia, questo è anche motivo di preoccupazione, soprattutto per il fatto che questi programmi possano imparare i pregiudizi umani.

“Questo approccio da testo a immagini è molto potente, in quanto dà la possibilità di esprimere con il linguaggio ciò che si vuole vedere”, ha dichiarato Mark Riedl, professore associato alla Georgia Tech School of Interactive Computing. “Il linguaggio è universale, mentre la capacità artistica di disegnare è un’abilità che deve essere appresa nel tempo. Se uno ha l’idea di creare un personaggio dei cartoni animati come Pikachu che brandisce una spada laser, potrebbe non essere qualcosa che uno saprebbe disegnare, anche se è in grado di spiegarla”. OpenAI ha scoperto che DALL-E, a volte è in grado di trasferire alcune attività umane e articoli di abbigliamento ad animali e ad oggetti inanimati, come il cibo ad esempio.

avocado in a cape walking a dog
Risultati scrivendo “avocado col mantello che porta a spasso un cane”

DALL-E è il secondo esempio di tecnologia di OpenAI sviluppata in meno di un anno. A maggio, l’azienda ha infatti rilasciato il GPT-3 (Generative Pre-trained Transformer 3), uno dei generatori di testo più impressionanti e simili alla capacità di un essere umano di creare un testo scritto che è stato in grado di generare un articolo scritto, in modo coerente, tutto da solo.

armchair imitating an avocado
Risultati scrivendo “poltrona che imita un avocado”

DALL-E e GPT-3 sono addestrati su enormi set di dati, fra cui le informazioni pubbliche su Wikipedia e sono costruiti sul modello di rete neurale di tipo transformer, che è stato annunciato per la prima volta nel dicembre 2017 ed è stato acclamato come “particolarmente rivoluzionario nell’elaborazione del linguaggio naturale”. L’azienda ha reso pubbliche informazioni sufficienti per avere una comprensione di base su come DALL-E funzioni, ma i dettagli esatti dei dati su cui è stato addestrato rimangono sconosciuti. E qui sta la preoccupazione, ossia su come i contenuti siano stati creati da questi sistemi. Negli ultimi anni, gli accademici e i più critici hanno messo in guardia sul fatto che i dati utilizzati per addestrare questi sistemi possano contenere pregiudizi sociali che possono finire nell’output di questi sistemi, poiché i bias algoritmici (ossia quel valore, il cui peso determina o meno l’attivazione del neurone in una rete neurale) hanno già iniziato a mostrarsi in algoritmi che hanno alimentato decisioni cruciali come la previsione del comportamento criminale (mandando in carcere innocenti) e la classificazione degli esami (assegnando punteggi più bassi del dovuto agli studenti), con gravi ripercussioni.

Uno studio pubblicato da ricercatori delle università di Stanford e McMaster ha rilevato che il GPT-3 era costantemente prevenuto contro i musulmani. In quasi un quarto dei casi di test dello studio, “musulmano” era correlato a “terrorista”.

“Sebbene queste associazioni tra musulmani e violenza siano apprese durante il pre-addestramento, non sembrano essere poi memorizzate”, hanno scritto i ricercatori, “piuttosto, GPT-3 manifesta i pregiudizi in modo abbastanza creativo, dimostrando la forte capacità dei modelli linguistici di mutare i pregiudizi in modi diversi, il che può renderli più difficili da rilevare e mitigare”.

Il generatore DALL-E di OpenAI è disponibile pubblicamente in una demo online, ma è limitato a frasi scelte dall’azienda. Anche se i successi illustrati sono senza dubbio impressionanti e accurati, è difficile conoscere le carenze e i dubbi etici del modello senza essere in grado di testare una serie di parole e concetti personalizzati.

Liste delle funzioni di DALL-E:

  1. il controllo degli attributi: per esempio un orologio verde pentagonale;
    2. il disegno di oggetti multipli: per esempio un piccolo blocco rosso posto su un grande blocco verde;
    3. la visualizzazione della prospettiva e della tridimensionalità: per esempio un rendering 3D di un capibara seduto in un campo;
    4. la visualizzazione della struttura interna ed esterna: ad esempio, una vista in sezione trasversale di una noce;
    5. la deduzione di dettagli contestuali: ad esempio un dipinto di un capibara seduto in un campo al sorgere del sole;
    6. la combinazione di concetti non correlati: ad esempio una lumaca fatta di arpa (DALL-E può generare animali ricavati da una molteplicità di elementi, tra cui strumenti musicali, alimenti e oggetti domestici. Anche se non sempre ha successo, DALL-E a volte prende in considerazione le forme dei due oggetti per determinare come combinarli. Per esempio, quando gli viene chiesto di disegnare “una lumaca fatta di arpa”, a volte mette in relazione il pilastro dell’arpa con la spirale del guscio della lumaca);
    7. il ragionamento zero-shot: ad esempio lo stesso identico gatto in alto e uno schizzo in basso (GPT-3 può essere istruito ad eseguire molti tipi di compiti a partire da una sola descrizione e da un suggerimento per generare la risposta senza alcun addestramento aggiuntivo. Questa capacità è chiamata ragionamento zero-shot [zero-shot reasoning]);
    8. conoscenza geografica: ad esempio una foto del cibo della Cina;
    9. conoscenza temporale: ad esempio una foto di un telefono degli anni ’20.
DALL-E
Dall’alto: 1-9

“Non sappiamo se la demo limitata eviti di farci notare risultati più problematici”, ha dichiarato Riedl. “In alcuni casi, anche il comando completo utilizzato per generare le immagini è oscurato. C’è un modo giusto per formulare le richieste e i risultati saranno migliori se la frase è quella che spinge il sistema a fare meglio”.

OpenAI ha fatto sapere di aver impedito un accesso pubblico a DALL-E in modo da assicurarsi che la sua nuova tecnologia non sia usata per mezzi illeciti.

“Siamo impegnati a condurre ulteriori ricerche e non renderemo DALL-E disponibile prima di costruire protezioni per mitigare i pregiudizi e affrontare altri problemi di sicurezza”, ha comunicato l’azienda.

Ci sono, naturalmente, implicazioni sociali, sia di casi di uso malevolo della tecnologia che da pregiudizi involontari. OpenAI, ha spiegato nel suo post sul blog, che modelli come questi hanno il potere di danneggiare la società e che ha in programma, per il futuro, di esaminare come DALL-E potrebbe contribuirvi.

“I bias e l’uso improprio sono problemi importanti che OpenAI prende molto sul serio come parte del nostro impegno per la diffusione sicura e responsabile dell’IA a beneficio di tutta l’umanità”, ha affermato un portavoce di OpenAI. “I nostri team di sicurezza e di protezione sono strettamente impegnati nella ricerca relativa a DALL-E”.

Ci sono un buon numero di potenzialità creative se DALL-E dovesse lavorare su una vasta gamma di contenuti misti e generare immagini senza pregiudizi e discriminazioni. Vale a dire che consentirebbe alle persone di creare un’immagine specifica su misura per le loro esigenze.

“Non credo che l’output di DALL-E sia di qualità abbastanza alta da sostituire, per esempio, gli illustratori, anche se potrebbe accelerare questo tipo di lavoro”, ha sottolineato Riedl.

Riedl ha poi notato alcuni esempi, tra cui la generazione di contenuti pornografici. La tecnologia Deepfake che può sovrapporre facilmente i volti di un essere umano ad un altro è stata utilizzata per generare immagini false senza il consenso delle persone che vi compaiono. Riedl ha anche detto che le persone possono utilizzare parole chiave e frasi per creare immagini “che sono destinate ad essere minacciose, irrispettose o offensive”.

Sebbene si sia sempre ritenuto che la creatività sarebbe stata l’ultima risorsa umana che la tecnologia sarebbe stata in grado di replicare, bisogna ammettere che essa sta comunque facendo notevoli passi avanti anche in questo senso. Se uno non sapesse che i disegni di DALL-E fossero frutto di un’intelligenza artificiale, potrebbe benissimo attribuirli ad un creativo. È facile quindi immaginare un futuro dove i creativi stessi o chi volesse diventarlo, possano utilizzare uno strumento come DALL-E per realizzare proprie creazioni, così come esistono oggi molti software per aiutarci con la creatività, si pensi ad esempio nel campo musicale, dove vi sono software che ci permettono di creare una canzone senza conoscere la teoria musicale. Il problema potrebbe però nascere quando i creativi saranno esclusivamente le intelligenze artificiali e non ci sarà più bisogno, o non si vorrà avere bisogno di artisti come esseri umani.

Oltre a questo, come già discusso precedentemente, la questione più seria sarà sicuramente quello del bias delle reti neurali, le quali divenendo poi uno standard in diversi settori, potranno determinare probabili esiti spiacevoli nelle vite delle persone: individui sospettati di crimini solo per via di dati statistici, o persone assunte per un lavoro solo sulla base di dati pregressi. E in qualche modo questa mentalità la si sta già adottando, se si pensa a come vengono decisi i candidati per i colloqui: tutti su dati e sempre meno dal contesto reale. Il problema maggiore sarà quindi la perdita del contatto con la realtà e l’affidarsi esclusivamente a strumenti e dati senza senso critico. Il che già avviene in numerosi contesti dove si applicano leggi alla lettera senza considerare la realtà di ogni caso.

Fonte NBC News