280 miliardi di parametri di Gopher contro i 175 miliardi di parametri di GPT-3

DeepMind, la società di ricerca di I.A. con sede a Londra e di proprietà di Google Alphabet, ha creato un algoritmo di intelligenza artificiale per svolgere compiti linguistici che includono la comprensione di lettura e di risposta a domande su una vasta gamma di argomenti, in modo migliore di qualsiasi software simile esistente come GPT-3 per esempio. Si chiama Gopher e in alcune aree, come un test di comprensione della lettura per le scuole superiori, il software si avvicina alle prestazioni di livello umano, anche se non si dimostra all’altezza quando si tratta di ragionamento di buon senso e di ragionamento matematico.

Tuttavia, DeepMind ha reso noto di voler giocare un ruolo maggiore nel progresso dell’elaborazione del linguaggio naturale. L’azienda è maggiormente conosciuta per aver sviluppato un sistema di intelligenza artificiale che può battere il miglior giocatore al mondo nel gioco strategico Go, una pietra miliare nell’informatica, e ha recentemente fatto un passo avanti nell’applicazione della I.A. nel predire la struttura delle proteine. Ciononostante, rispetto ai laboratori concorrenti come OpenAI (GPT-3), e le branche di ricerca sull’A.I. di Facebook, Microsoft, Alibaba, Baidu, e anche la sua società sorella Google, DeepMind ha lavorato molto meno sull’elaborazione del linguaggio naturale (NLP).

Queste aziende hanno sviluppato enormi sistemi sull’I.A. linguistica che si basano su reti neurali che possono consumare e manipolare centinaia di milioni fino a centinaia di miliardi di variabili. Sono addestrati su enormi archivi di libri e materiale raccolto da Internet, e sono conosciuti tra gli esperti di I.A. come “modelli linguistici molto grandi”. Il vantaggio è che possono eseguire una vasta gamma di abilità linguistiche, come la traduzione e la risposta alle domande, così come la scrittura di testi, con poco o nessun addestramento specifico in quelle aree.

Secondo i dati pubblicati da DeepMind, il loro modello linguistico è stato significativamente più accurato dei modelli linguistici molto grandi esistenti in molti compiti: in particolare nel rispondere a domande su argomenti specializzati come le scienze e le materie umanistiche, e uguale o pressoché simile in altri campi, come il ragionamento logico e la matematica.

Ci sono circa 280 miliardi di parametri distinti in Gopher. Questo lo pone davanti a GPT-3 di OpenAI, che ha 175 miliardi. Tuttavia, è più piccolo di Megatron, un sistema su cui Microsoft e Nivida hanno lavorato all’inizio di quest’anno che ha 535 miliardi di parametri, così come i 1,6 trilioni di Google e i 10 trilioni di Alibaba.

Modelli linguistici più grandi hanno già portato alla creazione di chatbot e assistenti digitali più fluenti, software di traduzione più accurati, motori di ricerca migliori e sistemi che possono riassumere documenti complessi. Comunque, DeepMind ha dichiarato che non intende commercializzare Gopher.

Poiché la maggior parte della conoscenza umana è contenuta nel linguaggio, alcuni accademici, compresi alcuni di OpenAI, credono che attraverso la creazione di modelli linguistici sempre più grandi, gli scienziati otterranno alla fine una “intelligenza generale artificiale”. Questa è la parola che gli scienziati informatici usano per descrivere l’intelligenza artificiale (IA) flessibile come quella umana.

Ecco perché i ricercatori di I.A. e gli scienziati sociali hanno espresso dubbi etici riguardo ai modelli linguistici molto grandi, poiché spesso imparano preconcetti razziali, etnici e di genere dai testi su cui sono addestrati, e i modelli sono così complicati che è impossibile rilevare e tracciare questi pregiudizi prima dell’impiego di questi sistemi.

Un altro problema con tali algoritmi è che utilizzano molta elettricità per l’addestramento e il funzionamento, il che potrebbe intensificare il problema del riscaldamento globale. Inoltre, alcuni ricercatori di linguistica e I.A. hanno anche esortato le aziende tecnologiche a smettere di costruire sistemi di I.A. poiché, nonostante la loro portata, non raggiungono ancora la comprensione del linguaggio a livelli umani.

Tuttavia, il team etico di DeepMind ha dichiarato che non c’è una soluzione unica per molti dei problemi che i modelli linguistici molto grandi causano.

DeepMind ha anche pubblicato una ricerca separata su una tecnica che potrebbe rendere la creazione di grandi modelli linguistici più efficiente dal punto di vista energetico e potenzialmente rendere più facile per i ricercatori rilevare bias e linguaggio tossico, nonché verificare le fonti di informazione. La tecnologia, soprannominata Retrieval-Enhanced Transformer (Retro), ha accesso a un database di 2 trilioni di parole che il software utilizza come memoria.

Quando gli viene fornita una richiesta scritta da un umano, il sistema cerca il testo dal suo set di addestramento che più si avvicina alla prima richiesta, dopodiché cerca il blocco di testo successivo più vicino, e poi utilizza questi due passaggi per orientare la sua risposta.

Avere questo tipo di memoria disponibile minimizza la quantità di dati che il modello linguistico deve elaborare in ogni momento. Di conseguenza, il modello può essere più piccolo e impiegare meno energia. DeepMind sostiene anche che il loro modello Retro, che ha 7 miliardi di parametri, può eguagliare le prestazioni di GPT-3 di OpenAI, nonostante GPT-3 sia 25 volte più grande. E poiché i ricercatori possono vedere esattamente quale parte del testo dell’ addestramento il software Retro sta usando per generare il suo output, i ricercatori di DeepMind credono che sarà più facile scoprire bias o imprecisioni.

È un bene che aziende come DeepMind stiano cercando di risolvere i possibili problemi etici delle I.A., ma c’è ancora molto da fare, per esempio, permettere alle persone di verificare che una I.A. sia davvero neutrale in qualsiasi situazione.

Fonte fortune.com