Animate Anyone è in grado di cambiare la posa del soggetto di una foto e renderlo un video
Come se i deepfake delle immagini non fossero già abbastanza, tutti coloro che pubblicano una foto online dovranno presto fare i conti anche con i video generati di loro stessi, dato che i malintenzionati possono ora utilizzare le persone come marionette in modo più efficace che mai grazie ad Animate Anyone.
Secondo questo articolo, i ricercatori dell’Institute for Intelligent Computing di Alibaba Group hanno inventato un nuovo sistema di video generativi. Rispetto ai precedenti sistemi image-to-video come DreamPose e DisCo, che erano sorprendenti, ma sono ormai superati, questo rappresenta un progresso significativo.
Le capacità di Animate Anyone non sono affatto nuove, ma hanno superato con successo la difficile transizione da qualcosa di sperimentale a qualcosa di sufficientemente buono al punto che le persone danno per scontato che sia reale e non provano nemmeno a esaminarlo da vicino.
I modelli da immagine a video, come questo, iniziano prendendo i dettagli da un’immagine di riferimento, come una foto di una modella che indossa un abito in vendita, i tratti del viso e le pose. Poi viene creata una serie di immagini in cui questi dettagli sono mappati su pose leggermente diverse, che possono essere acquisite tramite motion-capture o estratte da un altro video.
Anche se i modelli precedenti hanno dimostrato che è possibile ottenere questo risultato, ci sono stati numerosi problemi. Poiché il modello deve creare elementi realistici come il movimento dei capelli o delle maniche di una persona quando si gira, le ‘allucinazioni‘ rappresentavano un problema importante. Ne risultano molte immagini piuttosto strane, che tolgono molto alla credibilità del video finale. Tuttavia, l’idea è stata mantenuta e Animate Anyone è migliorato in modo significativo, anche se è ancora lontano dall’essere impeccabile.
Il documento evidenzia una nuova fase intermedia che “consente al modello di apprendere in modo completo la relazione con l’immagine di riferimento in uno spazio di caratteristiche coerente, contribuendo in modo significativo al miglioramento della conservazione dei dettagli dell’aspetto”. Il miglioramento della conservazione dei dettagli fondamentali e intricati porterà a immagini migliori in futuro, poiché avranno una base più solida su cui lavorare.
Negli esempi presentati vi sono modelli che assumono posizioni casuali senza perdere la loro forma o il design dei loro abiti; un personaggio anime 2D realistico e danzante prende vita, ecc…
Sono tutt’altro che perfetti, soprattutto per quanto riguarda le mani e gli occhi, che presentano particolari difficoltà per i modelli generativi. Inoltre, le posture più accurate sono quelle che ricordano da vicino l’originale; ad esempio, il modello ha difficoltà a tenere il passo se il soggetto si gira. Tuttavia, questo rappresenta un miglioramento significativo rispetto allo stadio precedente di questa tecnologia, che generava molti più artefatti o perdeva completamente informazioni cruciali come i vestiti o il colore dei capelli di una persona.
L’idea che un malintenzionato o un produttore possa farvi fare quasi tutto con una sola foto di alta qualità è inquietante. Per ora, la tecnologia è troppo complessa e piena di difetti per un uso generale, ma le cose non tendono a rimanere così a lungo nel mondo dell’intelligenza artificiale.
Il team non ha ancora rilasciato il codice al pubblico. I creatori dichiarano sulla loro pagina GitHub: “Stiamo lavorando attivamente alla preparazione della demo e del codice per il rilascio pubblico. Sebbene non possiamo impegnarci per una data di rilascio specifica in questo momento, vi preghiamo di essere certi che l’intenzione di fornire l’accesso sia alla demo che al codice sorgente è ferma”.
Con i deepfake, avevamo iniziato a preoccuparci della diffusione di foto e video in cui una persona poteva vedersi fare cose che non aveva mai fatto. Ora, l’inganno può essere esteso a tutto il corpo, simulando potenzialmente pose e movimenti mai fatti dal soggetto.
Se prima si prendeva un video e vi si incollava un volto per renderlo protagonista del video, ora è possibile alterare i suoi movimenti anche da una sola foto. Questo vuol dire che il livello di alterazione del mezzo fotografico e video implica che non possono più essere facilmente utilizzati come prove. Se a questo aggiungiamo anche la possibilità di poter clonare la voce di un individuo, capiamo bene che la mistificazione della realtà è ormai ad alti livelli.
Ciò che è vero e ciò che è falso stanno diventando sempre più indistinguibili, quindi dobbiamo essere più accorti e fidarci sempre meno di ciò che vediamo e sentiamo a primo acchito.