Immagini sempre più realistiche

Google ha introdotto un nuovo generatore di immagini a partire da un testo chiamato Parti, acronimo di Pathways AutoRegressive Text-to-Image. Questo nuovo modello utilizza una nuova tecnica che aiuta a generare immagini che corrispondono maggiormente alla descrizione testuale dell’utente.

anubis
Ritratto di una statua del dio egizio Anubi con occhiali da aviatore, maglietta bianca e giacca di pelle. Sullo sfondo la città di Los Angeles.

Il metodo utilizzato da Parti consiste in una collezione di foto che viene prima trasformata in una serie di immissioni di codice che assomigliano a pezzi di un puzzle. Poi si crea una nuova immagine traducendo una richiesta di testo fornita in queste immissioni di codice. Questo metodo è essenziale per gestire richieste di testo lunghe e complicate e per produrre immagini di alta qualità, perché si avvale della ricerca e dell’infrastruttura attuale per i modelli linguistici di grandi dimensioni.

DALL-E invece utilizza un modello basato sulla diffusione, che parte da un’immagine contenente rumore e poi organizza i pixel per generare un’immagine secondo la nostra descrizione.

Parti consente di generare immagini fotorealistiche ad alta fedeltà con la possibilità di scalare da 350M a 20B parametri.

Può anche generare scene mai viste utilizzando prompt lunghi e complessi. Ciò consente anche di schierare molti partecipanti e oggetti, con dettagli e interazioni precise, e di aderire a un formato e a uno stile d’immagine specifici.

teddy
Un orsacchiotto con casco e mantello da motociclista sta guidando un motoscafo vicino al Golden Gate Bridge

Tuttavia, come tutti gli altri generatori di immagini dal testo, Parti presenta una serie di problemi. L’elenco può continuare a lungo e comprende: il conteggio impreciso degli oggetti, caratteristiche mescolate, il posizionamento o la dimensione delle relazioni, la gestione impropria della negazione, ecc.

>>>  MedPaLM di Google e l'IA medica.

In ogni caso, questi modelli stanno rapidamente migliorando, quindi presto potremmo vedere foto estremamente accurate e disegni creati perfettamente attraverso una descrizione. Poi lo stesso processo potrebbe avvenire con i video: una sceneggiatura potrebbe diventare direttamente un film. Forse con strumenti diversi, ma sarà un approccio completamente nuovo alla creatività.

I modelli basati sulla creazione di immagini dal testo sono risorse stimolanti per la creatività, ma comportano anche pericoli legati ai bias, alle false informazioni e alla sicurezza. Ci sono dibattiti sulle pratiche etiche dell’IA e sulle azioni da intraprendere per far progredire questa tecnologia in modo sicuro. Per questo motivo, come primo passo, si utilizzano filigrane semplici da individuare per garantire che chiunque possa sempre riconoscere quando un’immagine è stata creata con questo strumento.

L’arte cambierà inevitabilmente nel prossimo futuro. Che ne sarà degli artisti? Saranno abili descrittori? O saranno in grado di mescolare questa nuova tecnologia con la propria arte per crearne una nuova? È difficile dirlo, ma questi algoritmi saranno sicuramente utili per chi non sa disegnare o dipingere nulla. Uno scrittore, ad esempio, sarà in grado di raffigurare il suo libro con immagini belle e accurate senza un illustratore. Sarà una buona cosa?