La startup cinese DeepSeek rivoluziona i mercati tecnologici con un’innovazione a basso costo
Una startup cinese di intelligenza artificiale ha mandato in tilt i mercati tecnologici globali con il suo ultimo modello di IA, sfidando il dominio tecnologico degli Stati Uniti e suscitando dubbi sull’efficacia dei controlli sulle esportazioni di chip avanzati.
Come riportato qui, DeepSeek, fondata nel 2023 dal gestore di hedge fund Liang Wenfeng a Hangzhou, è salita alla ribalta dopo che il suo chatbot è diventato l’applicazione gratuita più scaricata sull’App Store statunitense di Apple, superando ChatGPT di OpenAI. L’impennata di popolarità ha fatto seguito al rilascio del nuovo modello R1, che a quanto pare raggiunge prestazioni paragonabili a quelle dei principali modelli di IA ad un costo inferiore.
DeepSeek R1 vs OpenAI O1
Un’analisi tecnica dettagliata rivela differenze significative tra i due modelli:
DeepSeek R1 impiega un approccio di “pensiero ad alta voce” e utilizza un’architettura Mixture-of-Experts (MoE) con 671B parametri totali, anche se solo 37B sono attivi in qualsiasi momento. Il modello è stato addestrato utilizzando la Group Relative Policy Optimization (GRPO), senza bisogno di effettuare un fine-tuning supervisionato. Opera con una lunghezza del contesto di 128K token e ha dimostrato prestazioni impressionanti: 97,3% in matematica, 96,3° percentile nella codifica e 90,8% nella conoscenza generale.
Al contrario, O1 di OpenAI utilizza un approccio “che pensa prima di generare” con un’architettura di transformer densi in cui tutti i parametri rimangono attivi durante i calcoli. Combina un fine-tuning supervisionato con la RLHF per ottenere prestazioni guidate e supporta una lunghezza di contesto maggiore, pari a 200K token. I suoi benchmark mostrano il 96,4% in matematica, l’89° percentile nella codifica e il 91,8% nella conoscenza generale.
Costi e accessibilità
Forse la differenza più evidente sta nella struttura dei costi e nell’accessibilità. DeepSeek R1 è stato sviluppato per circa 5,58 milioni di dollari, utilizzando 2,78 milioni di ore di GPU. È disponibile come software open-source sotto la licenza MIT, che ne consente l’uso, la modifica e la distribuzione gratuiti. I costi delle API sono significativamente più bassi, con tassi di 0,14 dollari per le cache hit, 0,55 dollari per le cache miss e 2,19 dollari per l’output per milione di token.
O1 di OpenAI, mentre i costi di addestramento non sono stati resi noti, opera su un modello API a pagamento con tariffe sostanzialmente più elevate: 7,5 dollari per i cache hit, 15 dollari per i cache miss e 60 dollari per l’output per milione di token.
La notizia ha scatenato notevoli tumulti di mercato in tutto il settore tecnologico globale. Le principali aziende tecnologiche statunitensi, tra cui Nvidia, Microsoft e Meta, hanno visto scendere i prezzi delle loro azioni. L’impatto si è esteso anche alle aziende tecnologiche europee: le azioni del produttore olandese di apparecchiature per chip ASML sono scese di oltre il 10%, mentre Siemens Energy, che produce hardware legato all’intelligenza artificiale, ha subito un calo del 21% del valore delle azioni.
DeepSeek si distingue per la sua capacità di sviluppare modelli avanzati di intelligenza artificiale a costi nettamente inferiori. L’azienda riferisce di aver sviluppato il suo modello V3 per circa 6 milioni di dollari, in netto contrasto a concorrenti come OpenAI, che ha dichiarato di aver speso oltre 100 milioni di dollari per il GPT-4. DeepSeek sostiene di aver utilizzato solo circa 2.000 chip specializzati per l’addestramento, rispetto ai 16.000 o più tipicamente richiesti dai modelli leader.
L’approccio di DeepSeek rappresenta un potenziale cambiamento nello sviluppo dell’IA. L’azienda sfrutta la tecnologia esistente e il codice open-source, e i suoi modelli richiedono una potenza di calcolo significativamente inferiore. La startup si è adattata alle restrizioni statunitensi sull’esportazione di chip sperimentando nuovi metodi e combinando chip di fascia alta con alternative più economiche.
Questo sviluppo solleva importanti interrogativi sulla politica tecnologica degli Stati Uniti. Il successo di DeepSeek suggerisce che le restrizioni statunitensi all’esportazione di chip avanzati potrebbero inavvertitamente accelerare l’innovazione cinese. Il fondatore dell’azienda, Liang Wenfeng, avrebbe accumulato una notevole quantità di chip Nvidia A100 prima dell’entrata in vigore dei divieti di esportazione. Le recenti misure statunitensi, tra cui un importante progetto di investimento in infrastrutture per l’intelligenza artificiale sostenuto dal Presidente Trump, mirano a mantenere la leadership tecnologica americana.
Lo sviluppo ha suscitato reazioni diverse in tutto il settore. Marc Andreessen, venture capitalist della Silicon Valley, ha descritto la nascita di DeepSeek come “il momento Sputnik dell’IA”. La società di Wall Street Citi sostiene che le aziende statunitensi sono ancora avvantaggiate grazie all’accesso a chip più avanzati. Nel frattempo, Meta ha annunciato piani per 60-65 miliardi di dollari di investimenti di capitale, potenzialmente in risposta a questi sviluppi.
La situazione evidenzia una dinamica in evoluzione nello sviluppo dell’IA, in cui la ricerca aperta e l’efficienza dei costi potrebbero rivelarsi più decisive della quota di mercato o dell’accesso a hardware all’avanguardia. Questo potrebbe segnare un cambiamento nel panorama globale dell’IA, mettendo in discussione le ipotesi sulle risorse necessarie per innovazioni rivoluzionarie nell’intelligenza artificiale.
La nuova guerra fredda dell’intelligenza artificiale e le sue implicazioni sociali
L’emergere di DeepSeek come formidabile concorrente dei giganti statunitensi dell’IA presenta sorprendenti parallelismi con la corsa tecnologica dell’era della Guerra Fredda. Proprio come la corsa allo spazio tra Stati Uniti e Unione Sovietica ha definito gli anni Sessanta, la competizione sull’intelligenza artificiale tra Stati Uniti e Cina sembra plasmare gli anni Duemila. Questa volta, però, la posta in gioco potrebbe essere ancora più alta, poiché la tecnologia dell’IA ha il potenziale per trasformare praticamente ogni aspetto della società moderna.
Questa rivalità tecnologica presenta sia opportunità che sfide per la società globale. La competizione sta portando a una rapida innovazione e riduzione dei costi nello sviluppo dell’IA, che potrebbe accelerare la democratizzazione delle capacità avanzate di IA. L’approccio open-source di DeepSeek e i costi drasticamente ridotti potrebbero rendere gli strumenti sofisticati di IA più accessibili ai ricercatori, alle imprese e agli sviluppatori di tutto il mondo, favorendo potenzialmente l’innovazione in tutti i settori, dalla sanità all’istruzione.
Tuttavia, le tensioni geopolitiche che circondano lo sviluppo dell’IA sollevano preoccupazioni circa la frammentazione del panorama tecnologico globale. La creazione di ecosistemi di IA separati, uno incentrato sugli Stati Uniti e l’altro sulla Cina, potrebbe portare a standard divergenti, sistemi incompatibili e una minore collaborazione internazionale. Questo scenario potrebbe ostacolare la capacità della comunità scientifica globale di affrontare problematiche comuni e di stabilire linee guida etiche universali per lo sviluppo dell’IA.
Inoltre, la corsa alla supremazia dell’IA potrebbe spingere gli sviluppatori a privilegiare la velocità rispetto alla sicurezza, sollevando questioni cruciali sulla governance e sulla sicurezza dell’IA. Mentre entrambe le nazioni spingono per mantenere o ottenere un vantaggio tecnologico, la comunità internazionale deve affrontare la difficile impresa di garantire che lo sviluppo dell’IA proceda in modo responsabile, con un’adeguata attenzione alla sicurezza, all’etica e alle implicazioni più ampie per la società umana.
Nel corso di questa nuova guerra fredda tecnologica, la vera misura del successo potrebbe non risiedere nella nazione che raggiunge la superiorità dell’IA, ma nel modo in cui questa potente tecnologia viene infine sfruttata a beneficio dell’umanità, gestendo al contempo i suoi rischi intrinseci. La storia di DeepSeek suggerisce che l’innovazione può arrivare da luoghi inaspettati e che il progresso tecnologico potrebbe non seguire percorsi prevedibili. Questa realtà sottolinea l’importanza di mantenere un dialogo aperto e una collaborazione transfrontaliera, anche quando le nazioni competono per la leadership tecnologica nell’era dell’IA.