Il nuovo algoritmo di OpenAI è incredibilmente spaventoso

Nel gennaio 2021, OpenAI ha presentato DALL-E, un sorprendente algoritmo in grado di generare disegni e immagini da semplici istruzioni testuali. Nel 2022, il loro ultimo algoritmo, DALL-E 2, può generare immagini più realistiche e accurate con una risoluzione 4 volte maggiore.

L’algoritmo DALL-E 2 di OpenAI è in grado di trasformare un semplice testo in una vera e propria opera d’arte. Non c’è limite, solo l’immaginazione dell’utente.

Ciò che è impressionante è che il sistema di I.A. riconosce dove posizionare un elemento in un’immagine e cosa sia un’immagine fotorealistica, compresa la capacità di aggiungere e rimuovere elementi tenendo conto di ombre, riflessi e texture, ma anche facendo variazioni della stessa immagine.

In questo primo esempio DALL-E ha creato queste immagini dalle seguenti descrizioni combinando concetti, attributi e stili: “Un astronauta che si rilassa in un resort tropicale nello spazio in uno stile vaporwave” e “Un astronauta che gioca a basket con i gatti nello spazio come in una illustrazione di un libro per bambini”.

In questo secondo esempio, DALL-E ha posizionato il fenicottero in tre posti diversi tenendo conto delle ombre, dei riflessi e delle texture per ogni posizione.

Nel terzo esempio, DALL-E ha preso la prima immagine originale come ispirazione per farne una variazione nella seconda.

Il nome dell’algoritmo è una combinazione del nome dell’artista spagnolo Salvador Dalí e del personaggio Pixar WALL-E. In ogni caso, DALL-E 2 sta suscitando sentimenti contrastanti: alcuni sono stupiti e altri sono spaventati dal suo potenziale. La capacità dello strumento di convertire accuratamente i messaggi di testo in grafica è davvero notevole.

Come è possibile? Secondo OpenAI, un processo chiamato “diffusione” parte da un modello di punti casuali e altera gradualmente quel modello verso un’immagine quando rileva caratteristiche specifiche di quell’immagine. Attraverso questo processo, DALL-E 2 ha “imparato la relazione tra le immagini e il testo utilizzato per descriverle”.

È anche interessante vedere come gli utenti possano cercare di ingannare le capacità di riconoscimento del modello identificando un oggetto (come una mela Smith) con un nome che denota qualcos’altro (come un iPod). Nonostante l’alta probabilità di previsione che si avrebbe con questa didascalia, l’algoritmo genera comunque foto di mele con un’alta probabilità, anche quando si usa un’immagine etichettata male, e non produce mai foto di iPod.

DALL-E apple labeled ipod

Al momento, lo strumento non è disponibile al pubblico, ma è possibile iscriversi a una lista d’attesa per richiedere di essere inclusi in un gruppo di utenti selezionati che possono testare l’algoritmo.

Tuttavia, OpenAI è preoccupata per un possibile cattivo uso di questo strumento, quindi hanno fatto in modo che non possa generare volti reali, o creare immagini NSFW come immagini violente, di odio o per adulti.

Shiba Inu dog wearing a beret and black turtleneck
Immagine dalla descrizione: “Cane Shiba Inu con berretto e dolcevita nero”. Foto di OpenAI.

Questi strumenti di I.A. possono essere visti come un’opportunità per creare nuove forme d’arte, mescolando tecniche esistenti con la tecnologia, ma per alcuni questi algoritmi rappresentano una minaccia per gli artisti in quanto il rischio è quello di essere completamente sostituiti da una I.A. Inoltre, un’altra paura sta nel potenziale inganno nel generare foto che potrebbero rappresentare qualcosa di falso, ma che non si potrebbe riconoscere come tale.

DALL-E 3

dall-e 3

La versione più recente dell’algoritmo, DALLE 3, produce immagini più accattivanti e più chiare nei dettagli rispetto al suo predecessore. Testo, mani e volti possono essere resi accuratamente da DALLE 3 anche nelle scene più complesse. Inoltre, è in grado di adattarsi a formati sia orizzontali che verticali ed è in grado di rispondere in modo eccellente a indicazioni lunghe e complete. Per fornire descrizioni testuali più ricche per le immagini che sono servite come dati di addestramento per i nostri modelli, hanno addestrato un captioner di immagini all’avanguardia. Dopo aver addestrato DALLE-3 su queste didascalie migliorate, è stato creato un modello che presta molta più attenzione alle didascalie fornite dall’utente.

Ecco le 10 differenze più importanti tra DALL-E 2 e DALL-E 3:

  1. Risoluzione: DALL-E 3 produce immagini con una risoluzione di 1024×1024 pixel, il doppio rispetto alla risoluzione di 512×512 pixel delle immagini di DALL-E 2;
  2. Diffusione: Mentre DALL-E 2 utilizza un variational autoencoder (VAE) discreto per la compressione e la decompressione delle immagini in codici latenti discreti, DALL-E 3 utilizza un modello di diffusione per produrre immagini dal rumore;
  3. Integrazione di ChatGPT: Il sistema di intelligenza artificiale conversazionale OpenAI ChatGPT è integrato con DALL-E 3. ChatGPT creerà suggerimenti appositamente creati per DALL-E 3 per aiutare a dare vita alle idee;
  4. Aderenza ai suggerimenti: A differenza del suo predecessore, DALL-E 3 è eccellente nell’aderire alle richieste più impegnative;
  5. Generazione di testo: In DALL-E 3 è stata migliorata la creazione di testo per etichette, cartelli, loghi o didascalie all’interno delle immagini;
  6. Modello di diffusione: Il modello di diffusione di DALL-E 3 aumenta la flessibilità e il potenziale espressivo e lo rende in grado di gestire paesaggi e texture complicati;
  7. Dettagli umani: Rispetto a DALL-E 2, DALL-E 3 produce dettagli umani più realistici;
  8. Immagini coinvolgenti: Rispetto a DALL-E 2, DALL-E 3 produce immagini più interessanti;
  9. Sicurezza: Rispetto al suo predecessore, DALL-E 3 offre migliori forme di mitigazione dei risultati.
  10. Controllo creativo: Rispetto al suo predecessore, DALL-E 3, gli utenti hanno un maggiore controllo creativo sulle immagini prodotte.

Fonte creativityblog.org