Un’intelligenza artificiale più vicina al funzionamento del nostro cervello
GPT-3.5
Mentre tutti aspettavano GPT-4, la versione aggiornata del trasformatore generativo GPT-3, OpenAI ha reso disponibile GPT-3.5 sotto forma del già discusso chatbot ChatGPT.
ChatGPT è una versione perfezionata di GPT-3.5, un aggiornamento che l’azienda non aveva annunciato. Il chatbot ha dimostrato la capacità di generare testo in modalità conversazionale, che secondo l’azienda gli consente di: rispondere alle richieste di assistenza, di riconoscere i propri errori, di rifiutare le premesse errate e di respingere le richieste non idonee. Il modello è parente di InstructGPT, un modello GPT-3 perfezionato a cui è stato insegnato come seguire una richiesta di istruzioni e a produrre una risposta esauriente.
Lo sviluppo di contenuti digitali, la creazione e il debug di codice e l’assistenza ai clienti sono tutti casi d’uso di ChatGPT. GPT-3.5 è un gruppo di modelli sviluppati da OpenAI utilizzando testi e codici precedenti al quarto trimestre del 2021. L’azienda ha creato questa collezione di modelli per vari compiti piuttosto che rendere disponibile un GPT-3.5 completamente addestrato. Secondo gli sviluppatori, ChatGPT è basato su text-DaVinci-003, che è un aggiornamento di text-DaVinci-002 in GPT-3.
Come per InstructGPT, il modello è stato addestrato utilizzando il Reinforcement Learning from Human Feedback (RLHF), ma con metodi di raccolta dati diversi: “Abbiamo addestrato un modello iniziale utilizzando una taratura supervisionata: i trainer di I.A. umani hanno fornito conversazioni in cui interpretavano entrambe le parti, l’utente e l’assistente dell’I.A. Abbiamo poi dato agli istruttori accesso a suggerimenti scritti dal modello per aiutarli a comporre le loro risposte”, ha dichiarato OpenAI in un post sul blog.
“Per creare un modello di ricompensa per l’apprendimento con rinforzo, avevamo bisogno di raccogliere dati di confronto, che consistevano in due o più risposte del modello classificate in base alla qualità”. I ricercatori hanno utilizzato dialoghi tra chatbot e trainer di intelligenza artificiale per scegliere casualmente una frase scritta dal modello, campionando più possibili completamenti, e poi hanno chiesto ai trainer di intelligenza artificiale di valutare la qualità di ciascun completamento.
ChatGPT sa utilizzare anche rime e sillabe per comporre canzoni e poesie, quindi sembra essere in grado di comprendere la struttura delle parole e delle frasi.
Sebbene ci sia ancora del lavoro da fare prima che un’IA rubi il lavoro o i programmi delle lezioni a qualcuno, alcuni potrebbero essere preoccupati per gli scrittori disoccupati o per la scomparsa della scrittura di saggi nelle scuole. Nonostante ciò, OpenAI ha illustrato i limiti del nuovo modello. I ricercatori hanno infatti osservato che il modello fornisce occasionalmente risposte che possono sembrare plausibili, ma che sono imprecise o illogiche.
Inoltre, ChatGPT risponde in modo incoerente a semplici cambiamenti di formulazione, dichiarandosi ignorante in risposta a una domanda, ma rispondendo accuratamente a un’altra. Il modello occasionalmente fa poi un uso eccessivo di alcune parole e frasi, che secondo OpenAI potrebbero essere il risultato di distorsioni nei dati di addestramento causate dalle preferenze dei trainer per risposte più lunghe e dettagliate. Secondo i ricercatori, il modello a volte deduce lo scopo dell’utente quando risponde a una domanda poco chiara quando, in realtà, dovrebbe porre domande di chiarimento.
Secondo gli sviluppatori di ChatGPT, l’inconveniente maggiore è che, anche se OpenAI ha addestrato il modello a rifiutare le richieste errate, ChatGPT può ancora reagire negativamente ai comandi o comportarsi in modo distorto. L’azienda riconosce che, a meno che non si raccolga un feedback sufficiente da parte degli utenti per migliorarla, l’API di moderazione di OpenAI potrebbe dare luogo a falsi negativi o positivi per alcuni contenuti segnalati come pericolosi.
L’azienda afferma che intende aggiornare frequentemente il modello per ovviare a queste limitazioni, raccogliendo al contempo il feedback degli utenti sui risultati indesiderati del modello, con particolare attenzione ai risultati dannosi che “potrebbero verificarsi in condizioni reali e non contraddittorie, oltre ai feedback che ci aiutano a scoprire e comprendere nuovi rischi e possibili mitigazioni”. A questo scopo, l’azienda ha anche dichiarato che organizzerà un concorso di feedback ChatGPT, con 500 dollari di credito API come primo premio.
GPT-4
Dopo GPT-3 e chatGPT, GPT-4, il modello linguistico di grandi dimensioni di succesiva generazione utilizza 100 trilioni di parametri. Come termine di paragone, il cervello umano ha una media di 86 miliardi di neuroni, quindi questo sbalorditivo numero di parametri è reso possibile dai recenti sviluppi del supercalcolo dell’intelligenza artificiale, a partire dall’hardware dei chip cluster su scala cerebrale. L’uso della scarsità al centro della progettazione del modello distingue GPT-4 e OpenAI dai precedenti modelli su larga scala.
Di conseguenza, anche se il modello ha un enorme spazio dei parametri, il costo di calcolo è probabilmente inferiore a quanto si potrebbe prevedere. Rispetto al suo predecessore, che costava 12 milioni di dollari per ogni sessione di addestramento, si prevede un costo di addestramento di circa 6 milioni di dollari.
Ciò è dovuto al fatto che i neuroni del modello hanno un’alta percentuale di neuroni inattivi, il che riduce le risorse computazionali necessarie per far funzionare il modello. In parole povere, ciò significa che il modello è in grado di conservare un maggior numero di potenziali parole successive, frasi successive o emozioni successive, a seconda del contesto dell’input; in altre parole, il GPT-4 è probabilmente più simile al pensiero umano rispetto al GPT-3, perché è in grado di prendere in considerazione una gamma più ampia di opzioni quando produce gli output.
L’adozione della scarsità in GPT-4 potrebbe migliorarne la funzionalità e aumentarne l’efficienza, perché consumerebbe meno potenza di calcolo per funzionare.
Ci sono diversi modi per ottenere questo risultato, uno dei quali è che OpenAI migliori l’ottimizzazione a livello di software, consentendo di addestrare il modello in modo più efficace. Un’altra possibilità è che GPT-4 possa beneficiare di hardware o chip più veloci, che ridurrebbero il prezzo della potenza del computer necessaria per addestrare il modello. Un’altra spiegazione per la minore spesa di addestramento di GPT-4 potrebbe essere che OpenAI e Cerebras (un’azienda americana di intelligenza artificiale che costruisce sistemi informatici per applicazioni complesse di deep learning dell’intelligenza artificiale), collaborino per addestrare il loro modello sul più recente supercomputer CS-2 di quest’ultima, il più veloce acceleratore di AI disponibile, che riduce le latenze di inferenza da millisecondi a microsecondi e i periodi di addestramento da mesi a minuti. Rispetto al calcolo dell’intelligenza artificiale basato sulle unità di elaborazione grafica, utilizza una frazione minima delle risorse. In questo modo, gli sviluppatori possono evitare strategie di ottimizzazione dannose per le prestazioni.
GPT-4 è anche molto più grande dei precedenti modelli sparsi, come Switch Transformer e Wu Dao, che hanno solo qualche trilione di parametri.
Un’altra caratteristica significativa è il fatto che GPT-4 è un modello linguistico multimodale, in grado di ricevere una serie di input tra cui: testo, audio, immagini e potenzialmente anche video. Si tratta di un progresso promettente perché consente a GPT-4 di fornire output in diversi formati.
Visti i recenti sviluppi dell’intelligenza artificiale generativa audiovisiva e la già straordinaria capacità dei modelli linguistici di produrre testi simili a quelli umani, è logico che OpenAI svolga ulteriori ricerche in questo settore utilizzando GPT-4. Sebbene la gestione precisa di queste diverse modalità di input da parte di GPT-4 sia ancora sconosciuta, l’uso di input e output multimodali è una direzione importante per lo sviluppo dell’intelligenza artificiale, perché non solo il cervello umano elabora informazioni da una molteplicità di sensi, ma anche perché il mondo è multimodale.
GPT-4O
Nel maggio 2024, OpenAI ha presentato GPT-4o, un aggiornamento significativo del precedente modello GPT-4 Turbo. Questo trasformatore generativo multilingue e multimodale preaddestrato può elaborare e generare testo, immagini e audio in oltre 50 lingue. GPT-4o vanta prestazioni, velocità ed efficienza economica migliorate, essendo due volte più veloce, il 50% più economico e offrendo limiti di velocità cinque volte superiori rispetto al suo predecessore. Con una lunghezza del contesto di 128k token e una conoscenza fino a ottobre 2023, GPT-4o può generare risposte in appena 232 millisecondi, competendo con i tempi di risposta umani. L’architettura del modello è ottimizzata per la velocità e l’utilizzo di risorse ridotte, il che lo rende ideale per le applicazioni che richiedono risposte rapide. Sebbene il GPT-4o dimostri di avere maggiori capacità nelle risposte fattuali, nell’analisi del testo e nei compiti di codifica, incontra ancora dei limiti in termini di accuratezza, identificando correttamente solo il 60-80% dei dati nei compiti complessi. Quest’ultima versione rappresenta un passo significativo verso interazioni AI multimodali e più fluide, anche se le sfide in termini di affidabilità e coerenza delle prestazioni rimangono.
L’intelligenza artificiale sarà in grado di interagire efficacemente con il mondo esterno e di cogliere la complessità dell’esperienza umana quando sarà in grado di analizzare gli input relativi a vista, suono, tatto, olfatto e persino gusto.
Un’altra rivoluzione è alle porte. Con GPT-4 potremmo ottenere il primo algoritmo di intelligenza artificiale più vicino al nostro cervello e potrebbe essere il primo algoritmo a essere implementato nel cervello di un robot. Una conoscenza così vasta del mondo potrebbe darci risposte a qualcosa che ancora non riusciamo a comprendere. Immaginate di poter elaborare nel vostro cervello tutta la conoscenza del mondo e di essere in grado di creare connessioni tra tutti questi dati. Che tipo di risposte potreste ottenere? Per una persona, questa conoscenza potrebbe assomigliare a quella di un oracolo o di un Dio. Se si aggiunge che le risposte possono essere fornite anche da supporti audio e video, questo cambierà il modo in cui potremo utilizzare e accedere alle informazioni. In ogni caso, se le risposte dell’intelligenza artificiale saranno più complesse di quanto possiamo comprendere, come potremo discernere se una risposta sarà affidabile o meno?