ChatGPT sempre più parte del mondo reale

GPT-4 Omni, o GPT-4o in breve, è l’ultimo modello di intelligenza artificiale all’avanguardia di OpenAI che combina capacità di conversazione simili a quelle umane insieme alla percezione multimodale di testo, audio e immagini.

“Omni”, si riferisce alla capacità del modello di comprendere e generare contenuti attraverso modalità diverse come il testo, il parlato e la visione. A differenza dei modelli linguistici precedenti, che si limitavano a input e output testuali, GPT-4o è in grado di analizzare immagini, registrazioni audio e documenti, oltre ad analizzare le richieste scritte. Inoltre, è in grado di generare risposte audio, creare immagini e comporre testi in maniera fluida. Ciò consente a GPT-4o di potenziare applicazioni più intelligenti e versatili, in grado di percepire e interagire con il mondo attraverso molteplici modalità sensoriali, imitando le capacità di comunicazione e comprensione multimediale simili a quelle umane.

Oltre ad aumentare la velocità e l’accessibilità di ChatGPT, come riportato qui, GPT-4o ne migliora la funzionalità consentendo dialoghi più naturali attraverso applicazioni desktop o mobili.

GPT-4o ha fatto grandi progressi nella comprensione della comunicazione umana, consentendo di avere conversazioni che sembrano quasi reali. Comprese tutte le imperfezioni del mondo reale, come interpretare il tono, interrompere e persino rendersi conto di aver commesso un errore. Queste avanzate capacità di conversazione sono state mostrate durante la dimostrazione dal vivo del prodotto di OpenAI.

Da un punto di vista tecnico, OpenAI afferma che GPT-4o offre significativi miglioramenti delle prestazioni rispetto al suo predecessore GPT-4. Secondo l’azienda, GPT-4o è due volte più veloce di GPT-4 in termini di velocità di inferenza, consentendo interazioni più reattive e a bassa latenza. Inoltre, GPT-4o ha un costo dimezzato rispetto a GPT-4 quando verrà distribuito tramite l’API di OpenAI o il servizio Azure OpenAI di Microsoft. Questa riduzione dei costi rende il modello di intelligenza artificiale avanzata più accessibile agli sviluppatori e alle aziende. Inoltre, GPT-4o offre limiti di velocità più elevati, consentendo agli sviluppatori di incrementare l’utilizzo senza dover sottostare a vincoli di produttività. Questi miglioramenti delle prestazioni posizionano GPT-4o come una soluzione migliore ed efficiente dal punto di vista delle risorse per le applicazioni di IA in vari settori.

>>>  Gli LLM non possono imparare da soli

Nel video, il presentatore chiede un feedback sulla sua tecnica di respirazione durante la prima dimostrazione dal vivo. Egli fa un respiro profondo al telefono, al quale ChatGPT risponde: “Non sei un aspirapolvere”. ChatGPT ha quindi dimostrato di essere in grado di riconoscere e reagire alle sfumature umane.

Così parlare con disinvoltura al telefono e ricevere la risposta desiderata, piuttosto che ricevere un messaggio da Google, fa sembrare GPT-4o ancora più naturale che digitare una query di ricerca.

Tra le altre spettacolari funzionalità mostrate, ci sono sicuramente la capacità di ChatGPT di fungere da traduttore simultaneo tra i parlanti; l’abilità di riconoscere oggetti del mondo circostante tramite la fotocamera e reagire di conseguenza (nell’esempio viene infatti mostrato un foglio con su scritta un’equazione che ChatGPT riesce a leggere e a suggerire come risolvere); il riconoscere il tono di voce del parlante, ma anche di replicare le diverse sfumature del parlato ed emozioni compreso il sarcarsmo, compresa la capacità di cantare.

Oltre a queste funzionalità, è stata anche migliorata la capacità di creare immagini compreso il testo, ma anche le immagini 3D.

In ogni caso, probabilmente non siete i soli a pensare al film Her o a un altro a tema distopico riguardo al futuro con l’intelligenza artificiale. Questo tipo di linguaggio naturale con ChatGPT è molto simile al film. Dato che sarà disponibile gratuitamente sia su dispositivi desktop che mobili, molte persone potrebbero presto vivere le stesse esperienze del protagonista.

È evidente da questa prima visione che GPT-4o si sta preparando ad affrontare il meglio che Apple e Google hanno da offrire nei loro annunci di AI tanto attesi.

>>>  La crescente tendenza dei partner virtuali generati dall'IA

OpenAI ci stupisce con questa sorprendente novità che Google con Gemini ci aveva falsamente mostrato poco tempo fa. L’azienda si dimostra ancora una volta leader nel campo creando sia stupore che preoccupazione. Tutte queste nuove funzionalità ci permetteranno sicuramente di avere un alleato intelligente capace di insegnarci e farci imparare meglio cose nuove, ma quanta intelligenza delegheremo di volta in volta? Diventeremo più istruiti o delegheremo sempre di più i compiti? La traduzione simultanea solleva poi i dubbi sempre più evidenti di come sia semplice sostituire una professione, in questo caso, quel dell’interprete. E come sarà facile per un’IA sempre più capace a simulare l’essere umano a conquistarne la fiducia e manipolare le persone se usata in modo improprio?