Il nuovo strumento di OpenAI per la generazione di video sembra migliore di quelli della concorrenza

Da un po’ di tempo l’intelligenza artificiale capace di generare immagini da un testo è diventato un argomento molto popolare nel campo della tecnologia. Mentre generatori di testo-immagine come Midjourney stanno diventando sempre più popolari, modelli di testo-video vengono sviluppati da aziende come Runway e Pika.

Un importante protagonista dell’industria dell’IA, OpenAI, ha suscitato grande scalpore negli ultimi tempi, in particolare con l’introduzione di ChatGPT, secondo quanto riportato in questo articolo. In meno di due mesi, lo strumento di intelligenza artificiale ha guadagnato 100 milioni di utenti, un tasso di crescita più rapido di quello di Instagram o TikTok. OpenAI ha rilasciato DALL-E, il suo modello text-to-image, prima di ChatGPT. L’azienda ha rilasciato DALL-E 2 entro il 2022; tuttavia, l’accesso è stato inizialmente limitato a causa delle preoccupazioni relative alle immagini esplicite e pregiudizievoli. Questi problemi sono stati poi risolti da OpenAI, consentendo l’accesso universale a DALL-E 2.

Le immagini create con DALL-E 3 avevano alcuni watermark applicati da OpenAI; tuttavia, l’azienda ha dichiarato che questi potevano essere prontamente cancellati. Nel frattempo, Meta ha dichiarato che utilizzerà piccoli marcatori nascosti per individuare ed etichettare le foto scattate sulle sue piattaforme dai servizi di IA di altre aziende. Consapevole delle opportunità e dei rischi associati ai video e all’audio generati dall’intelligenza artificiale, Meta si sta cimentando anche in questo settore.

La creazione di immagini accurate e realistiche che corrispondono perfettamente alle indicazioni fornite è stata una delle più grandi abilità di DALL-E 3. La perfetta fusione di creatività linguistica e visiva è resa possibile da ChatGPT, che aggiunge un ulteriore livello di versatilità al prodotto.

Al contrario, Midjourney, un protagonista affermato nel campo dell’arte dell’IA, ha dimostrato la sua abilità nel produrre immagini stravaganti e creative. Forse non è riuscito a catturare la complessità degli elementi immediati come DALL-E 3, ma ha prevalso in termini di fascino visivo e raffinatezza. È importante tenere presente, tuttavia, che il confronto si è basato su particolari prompt e parametri, e che le valutazioni possono variare a seconda di altre circostanze o standard.

Alla fine, la valutazione è determinata dalle scelte e dalle esigenze specifiche dell’utente. Sulla base del confronto offerto, DALL-E 3 può essere considerato migliore se la velocità, la precisione e la facilità d’uso sono della massima importanza. Midjourney, invece, può essere scelto se si richiede una funzione più sofisticata e un risultato esteticamente gradevole.

Di recente, OpenAI ha presentato Sora, la parola giapponese che significa “cielo”, uno strumento di intelligenza artificiale in grado di produrre video della durata massima di un minuto utilizzando brevi messaggi di testo. In sostanza, voi gli dite cosa volete e Sora trasforma i vostri concept in realtà visiva. In un recente post sul blog, OpenAI ha descritto il funzionamento di Sora, affermando che trasforma questi input in scene complete di persone, attività e sfondi.

Prima del rilascio di OpenAI, strumenti come Runway (Runway ML), che ha debuttato nel 2018, hanno dominato il mercato e guadagnato terreno nei settori dell’editing video amatoriale e professionale per alcuni anni.

L’aggiornamento Gen-2 di Runway ha permesso di rilasciare numerose nuove funzionalità nel corso dell’ultimo anno, tra cui la Director Mode (una funzione che permette di spostare la prospettiva come se si stesse utilizzando una telecamera). Tuttavia, poiché Pika Labs è stato gestito principalmente sul proprio server Discord, si è evoluto lungo un percorso più simile a Midjourney, ed è stata considerata una delle applicazioni di IA più promettenti per i video generativi. Soprattutto, con il rilascio dell’aggiornamento Pika 1.0, le sue funzioni di controllo della telecamera (panoramica, zoom e rotazione) l’hanno elevata allo status di una delle più grandi soluzioni di IA per la creazione di video fino al rilascio dello strumento di OpenAI.

Infatti, oltre a creare video, Sora è in grado di migliorare foto, allungare video e persino riparare fotogrammi mancanti. Tra gli esempi della dimostrazione di OpenAI, un viaggio virtuale in treno a Tokyo e i luoghi della corsa all’oro in California. Inoltre, l’amministratore delegato Sam Altman ha rilasciato alcuni videoclip su X creati da Sora in risposta alle richieste degli utenti. Attualmente Sora è disponibile solo per ricercatori, artisti visivi e registi attraverso OpenAI. Per garantire che sia conforme alle linee guida di OpenAI, che vietano la violenza eccessiva, i contenuti sessuali e i sosia delle celebrità, lo strumento sarà sottoposto a test.

“Il modello comprende non solo ciò che l’utente ha chiesto nel prompt, ma anche come queste cose esistono nel mondo fisico”, ha dichiarato OpenAI in un post sul blog.

“Sora è in grado di creare video fino a 60 secondi con scene altamente dettagliate, movimenti complessi della telecamera e personaggi multipli con accese emozioni”, ha dichiarato OpenAI su X.

“Un caso d’uso scontato è quello televisivo: la creazione di brevi scene a supporto della narrazione”, ha dichiarato Reece Hayden, analista senior della società di ricerche di mercato ABI Research. “Il modello è ancora limitato, ma mostra la direzione del mercato”.

Certo, all’inizio sembra incredibile, ma se si presta molta attenzione al modo in cui la donna muove le gambe e i piedi durante il filmato di un minuto, diventano evidenti diversi problemi importanti. La donna cambia leggermente la posizione delle gambe e dei piedi tra i 16 e i 31 secondi. Le gambe destra e sinistra cambiano completamente posizione, dimostrando la scarsa conoscenza dell’anatomia umana da parte dell’IA.

A dire il vero, le capacità di Sora sono anni luce superiori a quelle dei precedenti esempi di video generati dall’IA. Vi ricordate quella terribile clip generata dall’IA in cui Will Smith gustava un piatto di pasta e, orribilmente, si fondeva con esso? È passato meno di un anno da allora.

Inoltre, anche se l’ultima dimostrazione dell’azienda ha scioccato alcuni, i limiti dell’IA generativa sono ancora evidenti.

Nei prossimi anni vedremo migliorare costantemente la capacità delle IA nel generare video sempre più accurati. Così, il futuro del cinema potrebbe avere nuovi strumenti, ma si aprirebbe anche una nuova possibilità per gli audiolibri che potrebbero essere narrati anche con una rappresentazione grafica. Come abbiamo già detto a questo proposito però, ci sono anche molti problemi legati alla creazione di video falsi che potrebbero generare prove di fatti mai accaduti.