La messa in scena di un video dimostrativo compromette la fiducia nel nuovo modello multimodale

Dopo mesi di anticipazioni, Google ha rivelato Gemini, il suo modello di intelligenza artificiale di prossima generazione. L’obiettivo è quello di competere direttamente con i modelli GPT di OpenAI.

La comunità informatica è stata colta alla sprovvista da questa dichiarazione, poiché si vociferava che i problemi con il supporto multilingue avessero causato il rinvio del rilascio. Ma solo il modello intermedio di Gemini, dei tre previsti, è stato lanciato subito.

Secondo questo articolo, Gemini è disponibile in tre diverse versioni. In grado di “vedere il mondo come lo vedono gli esseri umani” attraverso testi, immagini, audio e video, il modello più grande è l’Ultra. Il secondo tipo si chiama Pro e comanda Google Bard. Le sue capacità sono paragonabili a quelle del ChatGPT gratuito.

La novità più inaspettata è stata Google Gemini Nano, un piccolo modello di intelligenza artificiale che funziona solo su un telefono Android e può generare testo, essere utilizzato per le conversazioni e analizzare o riassumere i contenuti.

Google Gemini

I modelli linguistici di grandi dimensioni sono oggi i modelli dominanti nell’intelligenza artificiale. Grazie alla loro capacità di produrre molti tipi di contenuti e di gestire le interazioni in linguaggio naturale, alimentano applicazioni come Microsoft Copilot, ChatGPT e Bard.

La prima proposta nata dall’unione di tutti i team di Google AI, compreso il laboratorio britannico DeepMind, si chiama Gemini che stata addestrata da zero per essere multimodale. Ciò significa che testo, codice, audio, video e foto sono stati tutti inclusi nel set di dati di addestramento. Altri modelli sono invece stati messi insieme dopo essere stati addestrati indipendentemente su vari tipi di dati.

Solo la variante Gemini Ultra del modello, che necessita dei chip più avanzati e di un centro dati per funzionare, ha una capacità completa. Google ha presentato anche Pro e Nano, due versioni di AI di dimensioni ridotte che funzionano più velocemente, su CPU meno costose e persino in locale sui dispositivi. Il modello Pro di Google Gemini, integrato nella versione più recente di Google Bard, è ora l’unica versione del programma generalmente accessibile.

Secondo Google, è paragonabile al GPT-3.5 di OpenAI, il modello di intelligenza artificiale di precedente generazione che alimenta la versione gratuita di ChatGPT. Dato che Gemini è integrato nel Google Pixel 8 Pro, è possibile che abbiate già utilizzato la versione Nano dell’app senza saperlo. Inoltre, anche gli sviluppatori possono includere le sue funzionalità nelle loro app. Tuttavia Google ha deciso di ritardare il rilascio del modello Ultra fino al prossimo anno per effettuare test di sicurezza più approfonditi e garantire che il modello sia in linea con i valori umani.

I prossimi passi

L’anno prossimo Gemini Ultra sarà al centro dell’attenzione per il suo utilizzo in diversi prodotti, come Duo, gli strumenti che guidano l’IA generativa in Workspace e una nuova iterazione del chatbot di Google chiamata Bard Advanced.

Tuttavia, la versione Nano potrebbe essere utilizzata da un numero ancora maggiore di persone. Migliaia di app del Play Store la utilizzeranno per generare testo, analizzare contenuti, riassunti e altre funzioni. Potenzierà le funzionalità di traduzione e trascrizione e migliorerà i risultati di ricerca di Android.

Dopo la sua inaugurazione, il nuovo modello di intelligenza artificiale Gemini di Google ha ricevuto un buon feedback. Tuttavia, gli utenti potrebbero perdere fiducia nella tecnologia o nell’etica dell’azienda dopo aver appreso che la dimostrazione più spettacolare di Gemini era essenzialmente una messa in scena.

È facile capire perché un video intitolato “Hands-on with Gemini: Interacting with Multimodal AI” abbia ricevuto un milione di visualizzazioni nelle ultime 24 ore. La sorprendente dimostrazione “mette in evidenza alcune delle nostre interazioni preferite con Gemini”, dimostrando l’adattabilità e la reattività del modello multimodale a una serie di input. Il modello multimodale è in grado di comprendere e combinare conoscenze linguistiche e visive.

Come riportato qui, il video inizia raccontando la storia partendo da uno schizzo di un’anatra che passa da uno scarabocchio a un disegno finito, che Gemini sostiene essere di un colore irrealistico. Poi l’algoritmo mostra stupore quando si trova davanti un’anatra blu giocattolo. Successivamente, reagisce a diverse domande vocali su quel particolare giocattolo. La dimostrazione passa poi ad altre azioni impressionanti, come seguire una palla nascosta sotto delle tazze che vengono scambiate, identificare gesti di ombre cinesi, riordinare schizzi di pianeti e così via.

Anche se il video avverte che “la latenza è stata ridotta e gli output di Gemini sono stati ridotti”, tutto è ancora incredibilmente reattivo. Nel complesso, è stata una dimostrazione davvero impressionante di potenza nel campo della comprensione multimodale.

C’è solo un problema: il video è falso. “Abbiamo creato la demo catturando filmati per testare le capacità di Gemini su un’ampia gamma di sfide. Poi abbiamo sollecitato Gemini utilizzando fotogrammi del filmato e messaggi di testo”. È stato Parmy Olson di Bloomberg a portare inizialmente l’attenzione sulla discrepanza.

Quindi, pur essendo in grado di eseguire alcuni dei compiti dimostrati da Google nel video, non è stato in grado di farlo in tempo reale o come previsto. Si trattava di una sequenza di messaggi di testo calibrati con precisione e di immagini fisse che sono state volutamente travisate e scelte per distorcere la vera natura dell’interazione.

Da quando OpenAI ha rilasciato GPT 3, il mondo dell’IA è cambiato radicalmente. E con l’arrivo di ChatGPT, è iniziato un nuovo periodo. Da allora, Google ha cercato di competere e superare OpenAI, inizialmente criticando il rilascio di tale tecnologia così presto, ma poi cercando obbligatoriamente di alzare il livello. Sebbene il potenziale di Gemini possa far pensare a un ulteriore balzo in avanti dell’IA multimodale, il passo falso compiuto da Google nell’esagerare le capacità di Gemini non è un buon segno per l’azienda. Tuttavia, nei prossimi anni le IA saranno integrate in modo massiccio in ogni aspetto della tecnologia, con tutti i pro e i contro da considerare.