intelligenza artificiale

Il generatore di video tramite I.A. di Meta

Il prossimo passo verso la creazione di arte da parte delle IA

Negli ultimi tempi stiamo vedendo sempre di più come la potenza delle IA in diversi campi sia in grado di svolgere diversi compiti, anche se non sempre in modo perfetto, ma con risultati sorprendenti. Basti pensare agli ultimi strumenti di generazione di immagini AI che si stanno diffondendo su Internet. Giorno dopo giorno queste IA sono in grado di produrre immagini bellissime, anche copiando gli stili di artisti famosi.

Meta sta ora cercando di fare un passo avanti con uno strumento in grado di generare video attraverso l’intelligenza artificiale. Il suo nuovo tool, chiamato Make-A-Video, è disponibile via Twitter. Anche se i risultati possono sembrare piuttosto strani, non sarebbe una sorpresa se gli strumenti di generazione di video tramite AI superassero quelli di generazione di immagini come nuova tendenza.

Foto: Meta

Tuttavia, ottenere buoni risultati non è facile come per le immagini. Un’animazione richiede un maggior grado di coerenza tra i fotogrammi e la capacità di far interagire e muovere i soggetti di conseguenza. Ecco perché il tasso di errore aumenta. Inoltre, la generazione di video ha bisogno di molti più dati da cui attingere.

In ogni caso, anche se siamo in una fase iniziale, Meta ha ottenuto buoni risultati e Make-A-video è in grado di generare risultati con poche parole come prompt, proprio come Dall-E o Midjourney.

Secondo il documento di ricerca, il team di Meta ha utilizzato una versione evoluta del modello di diffusione per la generazione da testo a immagine per le animazioni, anche se la mancanza di grandi insiemi di dati con coppie testo-video di alta qualità è ancora un problema dovuto alla complessità della modellazione di dati video a maggiore dimensione, poiché i modelli di intelligenza artificiale da testo a video devono essere addestrati con insiemi di dati troppo grandi rispetto a quelli delle immagini.

Foto: Meta

Per generare le immagini, i modelli di diffusione iniziano con un rumore generato in modo casuale e poi lo regolano gradualmente per avvicinarsi all’obiettivo richiesto, ma la qualità dei dati dell’addestramento ha un impatto significativo sull’accuratezza dei risultati.

Però l’aspetto sorprendente dell’algoritmo Meta è che non ha bisogno di dati accoppiati testo-video e quindi non richiede troppi dati per funzionare.

Attualmente, Make-A-Video genera clip mute composte da 16 fotogrammi generati a 64 x 64 pixel, che vengono successivamente scalati a 768 x 768 pixel utilizzando un altro modello di IA. Hanno una durata di appena cinque secondi e mostrano solo un’azione o una scena.

Secondo Meta, l’intelligenza artificiale di Make-A-Video ha appreso “l’aspetto del mondo da coppie di dati testo-immagine e come si muove il mondo da filmati senza testo associato”. È stata addestrata utilizzando più di 2,3 miliardi di coppie testo-immagine dal database LAOIN-5B con milioni di video dai database WebVid-10M e HD-VILA-100M.

Meta sostiene che le immagini statiche con testo abbinato siano sufficienti per l’addestramento di modelli da testo a video, poiché possono essere utilizzate per dedurre movimenti, attività ed eventi. In modo analogo, anche senza alcun testo che li descriva, “i video non supervisionati sono sufficienti per imparare come le diverse entità del mondo si muovono e interagiscono”.

I ricercatori hanno riconosciuto che, come “tutti i modelli su larga scala addestrati su dati provenienti dal web, [i loro] modelli hanno appreso e probabilmente estremizzato i bias sociali, compresi quelli dannosi”, ma hanno affermato di aver fatto il possibile per controllare la qualità dei dati di addestramento filtrando il dataset di LAOIN-5B da tutte le coppie testo-immagine che contenevano contenuti vietati ai minori o parole tossiche. Uno dei problemi principali del settore è proprio impedire alle IA di produrre contenuti offensivi, falsi o pericolosi.

In ogni caso, i risultati sembrano video in stop-motion con alcuni difetti che li fanno sembrare surreali o onirici.

Lo strumento può essere applicato in diversi modi, ad esempio per dare movimento a una singola immagine, per riempire gli spazi vuoti tra due foto o per creare nuove iterazioni di un video basato sulla versione originale.

Non è difficile immaginare un futuro in cui le nostre storie possano prendere vita in un film completamente generato da un’I.A. in cui non solo le immagini, ma anche la musica e i dialoghi siano creati da un algoritmo. Sarebbe fantastico per coloro che vorrebbero avere l’opportunità di vedere come sarebbero le loro storie. Alcuni autori, però, potrebbero temere che questa tecnologia possa rubare loro la creatività. Tuttavia, questi strumenti potrebbero integrarsi con i processi creativi esistenti aggiungendo nuovi stili. Ciononostante, quando la qualità diventerà iperrealistica, potrebbe comunque accadere, ma il problema principale sarà quello di avere a che fare con media che sembrano così realistici da poter essere presi per veri, con tutti i rischi associati.

Tuttavia, è già possibile realizzare video con l’aiuto dell’intelligenza artificiale utilizzando un’app di editing video tutto in uno che consente di ottenere ottimi risultati grazie alle sue eccezionali funzionalità. Con Invideo, è possibile creare un video con i suoi strumenti essenziali ma efficaci, che consentono di concentrarsi sul risultato anche se non si è esperti. Inoltre, con l’aiuto dell’intelligenza artificiale, è possibile risparmiare tempo e trovare i contenuti giusti. Invideo offre diversi modelli di video che possono adattarsi ai vostri contenuti, oltre a strumenti come il “rimuovi sfondo” e la possibilità di aggiungere del testo alle vostre clip. È inoltre possibile aggiungere musica, immagini e video di stock, nonché i propri contenuti video. Tuttavia, le caratteristiche più interessanti sono le opzioni per convertire un articolo del blog in un video, generare uno script con l’intelligenza artificiale e convertire il testo in una voce fuori campo.

Dan Brokenhouse

Recent Posts

L’IA rileva l’empatia cognitiva attraverso clip audio

Uno studio dimostra che l'IA può raggiungere un'empatia cognitiva di livello umano da brevi clip…

6 giorni ago

8 robot umanoidi che cambieranno la forza lavoro

Otto robot umanoidi all'avanguardia destinati a trasformare le industrie e a ridefinire il futuro del…

2 settimane ago

Atlas di Boston Dynamics cambia forma

Boston Dynamics ritira il suo iconico robot Atlas e presenta un nuovo robot umanoide avanzato,…

3 settimane ago

La crescente tendenza dei partner virtuali generati dall’IA

Un dirigente del settore tecnologico rivela la tendenza crescente delle cosiddette "fidanzate" generate dall'IA.

4 settimane ago

TikTok ti legge nel pensiero?

Come l'algoritmo di TikTok modella le esperienze degli utenti e sull'importanza della supervisione umana nello…

1 mese ago

Avatar ‘fantasma’ con l’IA

Gli esperti avvertono che i "fantasmi" artificiali potrebbero disturbare il processo di elaborazione del lutto,…

1 mese ago
Seraphinite AcceleratorOptimized by Seraphinite Accelerator
Turns on site high speed to be attractive for people and search engines.