La startup di IA vocale ElevenLabs esplode grazie alla tecnologia multilingue
ElevenLabs, una società di intelligenza artificiale creata da ex dipendenti di Google e Palantir, ha raggiunto lo status di unicorno (termine che indica quando la valutazione di una startup raggiunge o supera il miliardo di dollari) in soli due anni dalla sua fondazione. Con l’annuncio della raccolta di 80 milioni di dollari, la valutazione dell’azienda è salita a 1,1 miliardi di dollari, un aumento di dieci volte.
Oltre a Sequoia Capital e SV Angel, l’investimento è stato guidato dagli attuali investitori Andreessen Horowitz (a16z), l’ex CEO di GitHub Nat Friedman e l’ex leader di Apple AI Daniel Gross.
Secondo questo articolo, ElevenLabs, un’azienda che ha perfezionato la tecnica dell’apprendimento automatico per la sintesi e la clonazione vocale multilingue, ha dichiarato che utilizzerà i fondi per espandere la propria linea di prodotti e approfondire la ricerca. Inoltre, sono state rivelate molte caratteristiche aggiuntive, come uno strumento per il doppiaggio di film completi e un nuovo negozio online dove gli utenti potranno vendere i loro cloni vocali in cambio di denaro.
Contenuti universalmente accessibili
È impossibile localizzare i contenuti per tutti in un mondo in cui i dialetti e le lingue variano da regione a regione. Tradizionalmente, la strategia consiste nell’ingaggiare doppiatori per alcuni mercati con un potenziale di sviluppo, concentrandosi sull’inglese o sulla lingua principale. La distribuzione è poi resa possibile dalla registrazione del materiale nella lingua prevista da parte degli artisti. Il problema è che questi doppiaggi manuali non si avvicinano nemmeno al materiale di partenza. Inoltre, anche in questo caso, scalare i contenuti per una distribuzione capillare è impossibile, soprattutto con una piccola squadra di produzione.
Piotr Dabkowski, ex ingegnere dell’apprendimento automatico di Google, e Mati Staniszewski, ex stratega dell’implementazione di Palantir, sono entrambi polacchi. Inizialmente hanno notato questo problema guardando i film con un cattivo doppiaggio. Questa sfida li ha spinti a fondare ElevenLabs, un’azienda il cui obiettivo è utilizzare l’intelligenza artificiale per rendere tutti i contenuti accessibili a livello globale in qualsiasi lingua e voce.
Dal suo lancio nel 2022, ElevenLabs si è gradualmente espansa. Si è fatta notare per la prima volta quando ha sviluppato una tecnologia text-to-speech che produceva voci inglesi dal suono naturale. In seguito, il progetto è stato aggiornato per includere il supporto per la sintesi in più lingue, tra cui hindi, polacco, tedesco, spagnolo, francese, italiano e portoghese.
In questo modo è stato possibile trasformare qualsiasi testo, ad esempio un podcast, in file audio con la voce e la lingua desiderate.
“La tecnologia di ElevenLabs combina la consapevolezza del contesto e l’alta compressione per offrire un parlato ultra-realistico. Invece di generare frasi una per una, il modello proprietario dell’azienda è costruito in modo da comprendere le relazioni tra le parole e adattare la riproduzione in base al contesto più ampio. Inoltre, non ha caratteristiche codificate, il che significa che può prevedere dinamicamente migliaia di caratteristiche vocali durante la generazione del parlato”, ha dichiarato Staniszewski.
Doppiaggio con l’IA
Dopo aver messo i prodotti in beta testing, ElevenLabs ha attirato oltre un milione di utenti in un breve periodo di tempo. Con l’introduzione di AI Dubbing, uno strumento di traduzione speech-to-speech che consente agli utenti di tradurre audio e video in altre 29 lingue mantenendo la voce e le emozioni dell’oratore originale, l’azienda ha ampliato la sua ricerca sulla voce AI. Ad oggi, tra i suoi clienti conta il 41% delle aziende Fortune 500. Tra questi figurano anche importanti editori di contenuti come Storytel, The Washington Post e TheSoul Publishing.
“Siamo costantemente impegnati in nuove collaborazioni B2B, con più di 100 partnership già avviate. Le voci dell’intelligenza artificiale hanno un’ampia applicabilità, dal consentire ai creatori di migliorare l’esperienza del pubblico all’ampliare l’accesso all’istruzione e fornire soluzioni innovative nell’editoria, nell’intrattenimento e nell’accessibilità”, ha sottolineato Staniszewski.
ElevenLabs sta attualmente puntando allo sviluppo del prodotto per offrire agli utenti la migliore collezione di funzioni con cui lavorare man mano che la base di utenti cresce. È qui che entra in gioco il nuovo flusso di lavoro di Dubbing Studio.
Il flusso di lavoro si espande nel prodotto AI Dubbing e fornisce strumenti specializzati agli utenti professionali, che possono così sviluppare e modificare trascrizioni, traduzioni e timecode, oltre a doppiare film completi nella lingua preferita. Questo offre loro un controllo più diretto sul processo di produzione. Come AI Dubbing, supporta 29 lingue, ma è privo di sincronizzazione labiale, una componente cruciale della localizzazione dei contenuti.
Sebbene Staniszewski preveda di offrire questa funzionalità in futuro, ha riconosciuto che l’azienda è attualmente concentrata sulla fornitura della migliore esperienza audio.
Tuttavia, la tecnologia per la sicronizzazione del labiale è già stata sviluppata da Heygen, che consente di ottenere una buona traduzione audio mantenendo la voce dell’oratore originale e una sostituzione della bocca che sincronizza le labbra con l’audio tradotto.
Mercato per la vendita di voci artificiali
ElevenLabs presenta non solo il Dubbing Studio, ma anche uno strumento di accessibilità in grado di trasformare testo o URL in audio e una Voice Library, che funziona come una sorta di mercato in cui gli utenti possono monetizzare le loro voci clonate dall’intelligenza artificiale. L’azienda offre ai consumatori la libertà di specificare i termini di pagamento e la disponibilità della propria voce generata dall’intelligenza artificiale, ma avverte che la sua condivisione richiede diversi passaggi e molteplici livelli di verifica. Gli utenti beneficeranno dell’accesso a una più ampia varietà di modelli vocali e gli sviluppatori di tali modelli avranno la possibilità di guadagnare.
“Prima di condividere una voce, gli utenti devono superare una verifica captcha leggendo un messaggio di testo entro un determinato periodo di tempo per confermare che la loro voce corrisponde ai campioni di formazione. Questo, insieme alla moderazione e all’approvazione manuale del nostro team, garantisce che le voci autentiche e verificate dagli utenti possano essere condivise e monetizzate”, ha dichiarato il fondatore e CEO.
Con il rilascio di queste funzionalità, ElevenLabs intende attrarre più clienti da diversi settori. Con questo finanziamento, l’azienda ha raccolto complessivamente 101 milioni di dollari e intende utilizzare il denaro per espandere la ricerca sull’intelligenza artificiale vocale, potenziare l’infrastruttura e creare nuovi prodotti verticalmente specifici. Allo stesso tempo, metterà in atto solidi controlli di sicurezza, come un classificatore in grado di riconoscere l’audio dell’intelligenza artificiale.
“Nei prossimi anni, intendiamo consolidare la nostra posizione di leader globale nella ricerca e nell’implementazione di prodotti di IA vocale. Intendiamo inoltre sviluppare strumenti sempre più avanzati e adatti a utenti e casi d’uso professionali”, ha dichiarato Staniszewski.
MURF.AI, Play.ht e WellSaid Labs sono altre aziende che si occupano di generazione vocale e vocale utilizzando l’IA. Secondo Market US, il mercato globale di questi prodotti è stato valutato a 1,2 miliardi di dollari nel 2022 e si prevede che crescerà a un tasso di crescita annuale composto (CAGR) di poco superiore al 15,40% per raggiungere quasi 5 miliardi di dollari nel 2032.
ElevenLabs offre un ottimo strumento per generare voci naturali, ma alcune caratteristiche dovrebbero essere implementate per renderlo un text-to-speech completo e versatile. Altri strumenti simili offrono la possibilità di modificare l’output, ma ElevenLabs non lo fa. Sebbene questo strumento sia ben addestrato a produrre risultati perfetti senza interventi, a volte sarebbe opportuno avere la possibilità di cambiare l’enfasi o di esprimere emozioni diverse attraverso il parlato, come permettono altri strumenti.
Anche quando la funzione di sincronizzazione del labiale come quella di Heygen sarà implementata, ci saranno altri problemi relativi al doppiaggio, poiché si tratta di un processo più complesso che prevede l’adattamento dei dialoghi. Inoltre, alcune espressioni non possono essere tradotte alla lettera, ma necessitano di una minima o maggiore modifica per essere efficaci. Per non parlare del tono di pronuncia di una battuta, che varia in ogni lingua.
Tuttavia il pubblico potrebbe preferire questo strumento perché potrebbe essere percepito come un miglioramento rispetto ai sottotitoli. Le persone non cercano la qualità, ma la comodità. Ecco perché è più facile sostituire cose e lavori con la tecnologia. Anche se le persone possono fare le cose in modo migliore, ci si può sempre accontentare di qualcosa con meno qualità, ma più comodo.
Anche la musica dovrà affrontare nuovi problemi. La possibilità di clonare le voci e i nuovi strumenti che permettono di usare la voce come se fosse un nuovo strumento virtuale per fare musica, renderanno molto più facile per i produttori, che non avranno più bisogno di un cantante, ma renderanno complicato per gli artisti cercare di evitare di farsi rubare la voce per canzoni non autorizzate.
Avere la possibilità di alterare video e parlato con strumenti come quelli di Heygen renderà più difficile per tutti capire cosa è reale o meno. Siamo quindi ufficialmente nell’era dell’inganno.