Il “caso DeepSeek”

Lo Sputnik ha fatto beep?

Negli ultimi anni, lo sviluppo dell’intelligenza artificiale (IA) ha generato una vera “corsa all’IA” a livello globale. L’azienda cinese DeepSeek ha recentemente messo in discussione il modello delle Big Tech statunitensi, dimostrando che risultati di alto livello possono essere raggiunti senza un’escalation incontrollata di risorse. Per comprendere il fenomeno, è utile chiarire cosa si intenda per “modelli” di IA: si tratta di componenti software addestrate sulla base di specifici algoritmi che tentano di replicare l’intelligenza umana attraverso previsioni, riconoscimento di schemi e processi decisionali. Modelli come ChatGPT sono progettati per comprendere domande in linguaggio naturale e generare risposte assistendo gli utenti in svariati compiti, dalla matematica alla programmazione. DeepSeek ha raggiunto notorietà globale con il rilascio di DeepSeek R1, un modello che ha dimostrato “capacità superiori rispetto ai modelli di OpenAI” in diversi benchmark, sebbene alcuni studi successivi abbiano evidenziato risultati misti nel confronto diretto. Fino ad oggi, la ricerca nel campo dell’IA è stata dominata dalle “Scaling Laws” – leggi empiriche descriventi come le prestazioni migliorino all’aumentare di fattori chiave quali la dimensione del modello, la quantità dei dati di addestramento e le risorse computazionali. Uno studio di OpenAI ha evidenziato che modelli più grandi, addestrati su dataset estesi con maggiori risorse, tendono a ottenere prestazioni superiori. Tuttavia, questo approccio ha richiesto finanziamenti miliardari e infrastrutture colossali, con scarsa considerazione per l’immane capitale energetico necessario. L’avvento di DeepSeek sembra aver dimostrato che l’IA può essere sviluppata in modo più efficiente e sostenibile. L’azienda ha sfruttato GPU meno avanzate, aggirando il blocco statunitense sui chip IA e abbattendo drasticamente i costi di produzione. I risultati di DeepSeek hanno generato uno shock nel settore, tanto da far parlare di un “momento Sputnik” per l’IA. L’espressione è stata coniata da Marc Andreessen, influente investitore della Silicon Valley. Il termine fa riferimento al 1957, quando l’Unione Sovietica lanciò il primo satellite artificiale, Sputnik 1, cogliendo gli Stati Uniti di sorpresa e scatenando una reazione nel mondo occidentale. Questo evento segnò l’inizio della corsa allo spazio, portando il governo statunitense a investire enormi somme in ricerca e tecnologia. Tuttavia, se il paragone con Sputnik può essere valido sotto l’aspetto della “sorpresa strategica”, probabilmente le reazioni sono sproporzionate ai fatti. Mentre Sputnik rappresentò un chiaro sorpasso tecnologico sovietico sugli Stati Uniti, DeepSeek non ha superato OpenAI in modo netto e definitivo. Negli Stati Uniti, l’innovazione è guidata dal settore privato. Le Big Tech americane hanno investito miliardi di dollari in enormi data center e infrastrutture computazionali avanzate. La conseguenza ovvia è la dipendenza da risorse economiche immense, rendendo lo sviluppo dell’IA accessibile solo a pochi soggetti in grado di attrarre gli investimenti necessari. In uno scenario di confronto capitalistico, la filiera tecnologica occidentale dipende fortemente dalle GPU di Nvidia, garantendo alle aziende americane un vantaggio significativo. Questo monopolio de facto ha consentito agli Stati Uniti di controllare il flusso di chip avanzati destinati alla Cina, nel tentativo di rallentare il progresso della potenza concorrente. Le aziende americane hanno adottato un approccio proprietario e chiuso nello sviluppo dell’IA. OpenAI, nonostante il nome, non rilascia pubblicamente i suoi modelli di punta e controlla strettamente l’accesso ai dataset e ai parametri di addestramento. La strategia cinese, invece, si dichiara fondata su principi opposti. DeepSeek sostiene di aver dimostrato che è possibile addestrare modelli con una frazione delle risorse richieste da OpenAI. L’azienda ha utilizzato GPU Nvidia H800, meno avanzate e costose rispetto alle Nvidia H100 bloccate dalle sanzioni statunitensi, riuscendo malgrado ciò a ottenere risultati notevoli. Per la Cina, l’obiettivo è l’indipendenza dalle forniture statunitensi, tramite investimento governativo nel settore nazionale dei semiconduttori e puntando sull’efficienza invece che sulla potenza di calcolo illimitata. Le sanzioni statunitensi si sono rivelate controproducenti.

Il “DeepSeek pensiero”

DeepSeek è un’azienda cinese che si è affermata nel panorama dell’IA in un tempo sorprendentemente breve. Fondata nel maggio 2023, la società è stata creata da Liang Wenfeng, un imprenditore con un passato nel mondo degli hedge funds, che ha poi deciso di investire nel settore dell’IA. A differenza di molte aziende occidentali nate con il supporto di grandi finanziatori e venture capital, DeepSeek è stata avviata con fondi propri, riflettendo la determinazione del suo fondatore nel portare avanti un progetto ambizioso senza essere vincolato agli interessi dei finanziatori. Wenfeng ha enfatizzato più volte l’importanza dell’innovazione rispetto al semplice profitto, dichiarando che la competizione nel campo dell’IA non si basa solo sulla potenza di calcolo, ma soprattutto sulla qualità dell’architettura dei modelli. Dal punto di vista strettamente tecnologico, DeepSeek R1 si distingue dagli altri modelli IA per una serie di elementi innovativi. Non è un semplice modello di generazione testuale, ma un reasoning model: a differenza dei classici modelli di linguaggio che provano a rispondere immediatamente, R1 tenta di elaborare prima una catena di pensiero, impiegando anche diversi secondi per generare una risposta più articolata. Questa caratteristica lo avvicina al concetto di AGI (Artificial General Intelligence), poiché non si limita a prevedere la prossima parola più probabile, ma tenta di costruire attivamente un ragionamento coerente. L’implementazione su vasta scala di tecniche di “apprendimento per rinforzo” (Reinforcement Learning, RL) ha determinato un incremento dell’efficienza delle risposte da parte di R1. Si tratta di tecniche in cui un “agente” impara a prendere decisioni ottimali interagendo con un “ambiente” e ricevendo ricompense o penalità in base alle azioni compiute. DeepSeek sembra aver dimostrato che l’efficienza può compensare la mancanza di potenza computazionale, un risultato che ha allarmato i sostenitori delle Scaling Laws. L’IA è al centro di un’enorme bolla speculativa, con investimenti miliardari e aziende che promettono, a ogni occasione, innovazioni rivoluzionarie. Se l’IA può essere sviluppata con meno risorse, allora gli investimenti faraonici delle Big Tech potrebbero rivelarsi sovrastimati, portando a un crollo del valore delle aziende del settore. Un altro aspetto rilevante del “caso DeepSeek” è rappresentato dalla scelta di rilasciare i “pesi” del modello R1 con licenza open source, permettendo a chiunque di scaricarlo e utilizzarlo. Il fondatore di DeepSeek, Liang Wenfeng, ha dichiarato che l’open source è una filosofia di innovazione più che un modello di business. L’idea è che la collaborazione globale acceleri il progresso scientifico e tecnologico.

La “distillazione di conoscenza” e la proprietà intellettuale

Uno dei temi più controversi riguarda l’ipotesi che DeepSeek abbia utilizzato tecniche di “distillazione di conoscenza” per “apprendere” da ChatGPT e da altri modelli di OpenAI. La “distillazione di conoscenza” è una tecnica di apprendimento automatico utilizzata per trasferire informazioni da un modello IA avanzato (teacher model) a un modello più piccolo e leggero (student model). Il modello teacher genera risposte dettagliate su una vasta gamma di input e il modello più piccolo (student) viene addestrato utilizzando le risposte del teacher, invece che partendo da zero con un dataset tradizionale. Dopo il rilascio di DeepSeek R1, alcuni esperti di IA hanno ipotizzato che l’azienda cinese abbia utilizzato queste tecniche per “estrarre” informazioni da ChatGPT. Tuttavia, dimostrare una violazione non è semplice, perché il mondo dell’IA non ha ancora regole chiare su come vengano raccolti e utilizzati i dati per l’addestramento. OpenAI stessa è sotto pressione perché non ha mai rivelato completamente su quali dati abbia addestrato GPT-4.

Censura e controllo dell’informazione

I modelli di IA sviluppati in Cina operano sotto rigide normative governative che impongono linee guida precise sui contenuti che possono generare. Il governo cinese richiede che tutti i modelli IA rispettino le leggi locali sulla moderazione dei contenuti. Per esempio, le IA cinesi devono riconoscere l’isola di Taiwan come parte della Cina; eventi storici controversi, come i fatti di Tiananmen del 1989, devono essere omessi o reinterpretati in linea con la versione ufficiale governativa.

L’impronta ecologica dell’IA

DeepSeek si è distinta dai giganti come OpenAI e Google, proponendo un approccio più efficiente e sostenibile, basato sull’uso di GPU meno avanzate e su precise scelte tecniche volte a ridurre il consumo energetico. Tuttavia, si rischia il verificarsi del cosiddetto “paradosso di Jevons“, secondo cui una maggiore efficienza può portare a un incremento complessivo dei consumi. Se l’IA diventa più accessibile ed economica, più aziende potranno implementarla, generando una domanda sempre maggiore di risorse computazionali ed energetiche. L’espansione dell’uso dell’IA anche in settori non essenziali aggraverà ulteriormente l’impatto energetico globale, come dimostrato dalla proliferazione di chatbot e strumenti automatizzati per compiti di poco rilievo. Il settore dovrà affrontare la questione ambientale adottando soluzioni sostenibili, quali l’impiego di energia rinnovabile per i data center e lo sviluppo di modelli d’IA decentralizzati, eseguibili su dispositivi locali.

Ripensare l’IA, radicalmente

Dunque DeepSeek ha aperto una nuova fase nella “corsa all’IA”? Ha messo in crisi le Big Tech occidentali, dimostrando che modelli più efficienti e accessibili possono cambiare le regole del gioco? Come spesso accade per questo genere di domande, la risposta non è immediata. In sintesi, il “DeepSeek pensiero” si appoggia su due pilastri: efficienza ottenuta grazie a precise scelte tecniche (RL, “distillazione di conoscenza”) e adesione alla “filosofia” open source. Relativamente al primo pilastro, si fa riferimento a soluzioni già note alla comunità degli esperti del settore, anche se certamente d’avanguardia: un po’ poco per parlare di un nuovo paradigma. Qualora si dimostrasse che DeepSeek si è effettivamente “appoggiata” ai modelli di OpenAI per evitare la costruzione e l’utilizzo di un dataset autonomo, sarebbe comunque arduo parlare di un cambio paradigmatico, a meno di identificare come elemento innovativo il buon senso di non “reinventare la ruota”. Il secondo pilastro, ossia il rilascio dei “pesi” del modello con licenza open source, rappresenta pertanto l’unico vero elemento di rottura. L’ideazione di un paradigma radicalmente innovativo per lo sviluppo dell’IA rappresenta un’attività tutt’altro che oziosa, se il sogno è quello di realizzare una sorta di entità ancillare all’intelligenza umana, accessibile a tutti e costruita per affrontare problemi collettivi. Sarebbe però indispensabile partire dai principi del software libero (il termine “open source“, di fatto quasi equivalente, è stato coniato col solo scopo di rendere il concetto più digeribile per il mondo aziendale): vale a dire dalla libertà di eseguire i programmi per qualsiasi scopo, di studiare come funzionano e di adattarli alle proprie necessità, di ridistribuirne copie, di migliorarli e di distribuire i miglioramenti. Gli algoritmi e i dataset dovrebbero essere perciò disponibili pubblicamente, verificabili e migliorabili dalla collettività, in un ecosistema aperto che rifiuti la logica delle black-box e lo sfruttamento economico dei dati personali.
DeepSeek benchmark
Spes est vigilantis somnium. * le immagini sono state create localmente con Stable Diffusion, un modello open source di apprendimento automatico profondo per generare immagini a partire da descrizioni di testo. Articolo originariamente pubblicato su milanoinmovimento.com