Dai ritratti animati ai volti manipolabili in tempo reale

Il primo tentativo di animare le foto è stato con i deepfake ma la tecnologia si è evoluta rapidamente e i nuovi algoritmi non hanno bisogno di così tanti dati per addestrare le IA per animare le foto. I deepfake sono stati utilizzati per sostituire i volti originali con altri sui video, ma alcune aziende hanno cercato di fare lo stesso con una tecnologia più avanzata.

D-ID, per esempio, è leader nel mercato del deep learning, della computer vision e delle tecnologie di elaborazione delle immagini, e collabora con MyHeritage, un’app che aiuta a tracciare il proprio albero genealogico a partire da un kit DNA. Oltre a questo servizio, includono Photo Enhancer una funzione che permette di restaurare vecchie foto di famiglia attraverso l’IA. Inoltre, collaborando con D-ID, MyHeritage ha introdotto Deep Nostralgia, uno strumento che permette di animare le foto con risultati sorprendenti, ma anche inquietanti. Tuttavia, D-ID ha fatto un ulteriore passo avanti e ha sviluppato una nuova versione di questo strumento chiamato Speaking Portrait (Ritratto che parla) in grado di animare le persone nelle fotografie e fargli dire qualsiasi cosa l’utente voglia risultando incredibilmente realistico.

Deep Nostalgia, seppur sorprendente, aveva i suoi limiti. Dopo aver caricato una foto di una persona, il suo orientamento nello scatto veniva analizzato per determinare la direzione in cui la testa e gli occhi erano rivolti come riferimento per creare i movimenti generati dall’IA, ma gli utenti non avevano alcun controllo sui movimenti nel video generato, senza considerare la possibilità di parlare.

Speaking Portraits invece, permette a chiunque di generare un video full HD da un’immagine sorgente e può combinare quell’animazione con un parlato registrato o un testo digitato e animarlo in tempo reale. Potrebbe assomigliare a un deepfake, ma la tecnologia alla base di Speaking Portraits sembra essere completamente diversa. D-ID intende lanciare il prodotto con il supporto per solo tre lingue: Inglese, spagnolo e giapponese, ma ne aggiungerà altre se la domanda aumenterà.

Speaking Portrait richiede la presentazione di un video per l’addestramento dell’IA di 10 minuti per il personaggio richiesto che deve coincidere con le linee guida fornite da D-ID. Inoltre c’è anche la possibilità di sostituire lo sfondo del volto animato.

Eccone un esempio.

Tuttavia, le impressionanti caratteristiche di Deep Nostalgia che deriva dalla tecnologia di Live Portrait (Ritratto vivo) della D-ID, sono ancora disponibili come strumento separato. Si può applicare a qualsiasi foto permettendo di animare la testa mentre le altre parti rimangono statiche senza la possibilità di sostituire lo sfondo. Tuttavia, il risultato qui sotto mostra come i movimenti e le espressioni facciali eseguiti dalla persona reale avvengano in modo fluido su un’immagine fissa. Si può così agire come una sorta di burattinaio dell’immagine fotografica.

Il co-fondatore e CEO di D-ID ammette che questo tipo di tecnologia ha dei rischi, e lui e la sua azienda sono “pronti a fare in modo che sia usata a fin di bene”, e hanno intenzione di collaborare con altri nel campo per evitare abusi.

Avevamo già discusso come questa tecnologia potesse portare a impersonare qualcun altro e rovinarne la reputazione, o ingannare gli altri. Non potremmo mai sapere chi c’è dietro una faccia. E anche se questa potrebbe essere una grande tecnologia per i film o per far rivivere i nostri ricordi, rimane pur sempre pericolosa.

Fonte petapixel.com