di Francesca Boccia
Dal suo lancio nel novembre 2023, Deep Seek si è rapidamente affermata come una delle realtà più innovative e sorprendenti del panorama dell’intelligenza artificiale. Fondata da Liang Wenfeng, ex studente di visione artificiale e co-fondatore di uno degli hedge fund più influenti della Cina, High-Flyer Quant, Deep Seek ha sfidato i colossi globali con un modello di IA altamente efficiente e accessibile.
Ma cosa rende Deep Seek così speciale? La risposta è nelle sue innovazioni tecnologiche, nel suo approccio open source e nella visione strategica del suo fondatore.
Le Radici di Deep Seek: Una Startup nata dalla Visione di Liang Wenfeng
Classe 1985, Liang Wenfeng è nato nella regione orientale dello Zhejiang e si è trasferito per studiare elettronica. Durante l’università, ha esplorato il campo della visione artificiale, un segmento dell’IA dedicato a far comprendere ai computer immagini e video. Liang ha poi ampliato il suo interesse verso l’applicazione dell’intelligenza artificiale agli investimenti finanziari, portandolo a fondare High-Flyer Quant nel 2015.
Quando Liang ha fondato Deep Seek, lo ha fatto con una risorsa strategica: una significativa scorta di chip NVIDIA A100, acquistata prima delle restrizioni imposte dagli Stati Uniti. Con oltre 10.000 chip (secondo alcune fonti 50.000), Liang ha potuto sviluppare modelli di IA avanzati, compensando le limitazioni tecnologiche grazie a un’efficienza senza pari.
Un Percorso di Successi Tecnologici
Il viaggio di Deep Seek è iniziato con il lancio di Deep Seek Coder, un modello open source progettato per compiti di codifica. A questo è seguito Deep Seek LLM, un modello linguistico generale, e infine Deep Seek-V2, che ha ottenuto un successo immediato grazie alle sue alte prestazioni e al basso costo.
Le innovazioni successive hanno consolidato la posizione di Deep Seek:
- Deep Seek-Coder-V2: Un modello con 236 miliardi di parametri e una finestra di contesto di 128.000 token, ideale per analizzare documenti complessi.
- Deep Seek-V3: Con 671 miliardi di parametri, richiede risorse minime ma offre prestazioni di altissimo livello.
- Deep Seek-R1: Progettato per compiti complessi come ragionamento, codifica e matematica, R1 sfida modelli avanzati come OpenAI o1.
Nonostante il suo successo, Forbes ha osservato che Deep Seek si concentra principalmente sulla ricerca, senza piani immediati di commercializzazione.
La Forza dell’Open Source
Uno degli aspetti più rivoluzionari di Deep Seek è il suo approccio open source, che rende i suoi modelli accessibili a tutti:
- Accessibilità Democratizzata: Gli utenti finali possono utilizzare i modelli gratuitamente, a differenza di altri sistemi come OpenAI o1 e Claude Sonnet, che richiedono abbonamenti a pagamento.
- Collaborazione Globale: L’apertura del codice permette a ricercatori e sviluppatori di migliorare e personalizzare i modelli.
- Innovazione Localizzata: In Europa e in Italia, Deep Seek offre la possibilità di sviluppare soluzioni su misura per le esigenze locali, riducendo la dipendenza dai colossi tecnologici globali.
Un Successo Costruito sull’Efficienza
Uno degli aspetti più impressionanti di Deep Seek è il costo estremamente contenuto per l’addestramento del suo modello R1: appena 5,6 milioni di dollari. Questo dato è sorprendente se confrontato con i costi dichiarati dai principali attori del settore: secondo il CEO di Anthropic, Dario Amodei, il costo di addestramento per modelli simili può variare tra 100 milioni e 1 miliardo di dollari.
Questa efficienza è stata necessaria, ma anche frutto di una situazione geopolitica sfavorevole. Il veto imposto dagli Stati Uniti sull’esportazione di chip avanzati in Cina ha spinto Deep Seek a innovare in modo obbligato, ottimizzando al massimo le risorse hardware disponibili. È emblematico che, nonostante la carenza di chip e il budget ridotto, Deep Seek sia riuscita a sviluppare un modello che si avvicina alle prestazioni dei leader globali.
Tecniche come l’apprendimento per rinforzo puro e l’architettura Mixture of Experts (MoE) hanno permesso di ridurre significativamente le risorse computazionali necessarie, garantendo prestazioni elevate con una frazione dei costi.
Implicazioni per il Futuro e per l’Europa
L’approccio di Deep Seek offre una lezione importante per l’Europa: innovazione e apertura possono compensare le limitazioni infrastrutturali. Per l’Italia, questo significa un’opportunità unica di sviluppare soluzioni locali competitive e accessibili, sfruttando modelli open source avanzati.
Con le sue tecniche innovative, Deep Seek ha dimostrato che è possibile ottenere risultati straordinari con risorse limitate. Il suo successo non è solo un trionfo tecnologico, ma anche un esempio di resilienza e visione strategica.