DeepSeek Coder V2: il primo modello open-source a superare GPT-4 Turbo

La startup cinese DeepSeek ha rivoluzionato il settore con DeepSeek Coder V2, un modello open-source di codifica che supera GPT-4 Turbo.

La startup cinese DeepSeek ha recentemente presentato il DeepSeek Coder V2, un modello di codifica open-source che sfida e supera gli attuali modelli all’avanguardia, incluso GPT-4 Turbo. Sviluppato sulla base dell’avanzato framework DeepSeek-V2, questo modello si distingue per la sua abilità in compiti di codifica e nelle operazioni matematiche. Supporta oltre 300 linguaggi di programmazione, offrendo un’eccezionale versatilità.

Testato attraverso benchmark come MBPP+, HumanEval e Aider, DeepSeek Coder V2 ha ottenuto punteggi superiori rispetto a molti modelli sia chiusi che open-source. Disponibile in versioni con 16 miliardi e 236 miliardi di parametri, il modello si basa su un dataset addizionale di 6 trilioni di token, in gran parte composto da codici e dati matematici. Una delle caratteristiche distintive è la capacità di attivare solo i parametri necessari per ottimizzare compiti specifici, dimostrando anche notevoli competenze di ragionamento generale e comprensione del linguaggio.

Distribuito sotto licenza MIT, DeepSeek Coder V2 consente un uso commerciale illimitato e la ricerca. Gli utenti possono scaricare il modello da Hugging Face o accedervi tramite API con un modello di pagamento a consumo. Questa distribuzione apre nuove possibilità sia per gli sviluppatori che per le aziende nel campo dell’intelligenza artificiale.

Ottime prestazioni nel linguaggio generale e nel ragionamento

Oltre a eccellere nei compiti di codifica e matematica, DeepSeek Coder V2 mostra buone performance nei compiti di ragionamento generale e comprensione del linguaggio. Ad esempio, nel benchmark MMLU, progettato per valutare la comprensione del linguaggio su vari compiti, ha ottenuto un punteggio di 79,2, evidenziando le sue capacità superiori rispetto ad altri modelli specifici per il codice.

Sebbene modelli come GPT-4 e Claude 3 Opus continuino a dominare la categoria MMLU con punteggi più alti, il progresso di DeepSeek Coder V2 è significativo, dimostrando che i modelli open-source possono competere efficacemente con le soluzioni proprietarie all’avanguardia. Attualmente, DeepSeek Coder V2 è disponibile con una licenza MIT, che consente un uso commerciale e di ricerca senza restrizioni. Gli utenti possono accedere alle versioni da 16B e 236B tramite Hugging Face oppure utilizzare le API offerte dalla piattaforma aziendale con un modello di pagamento a consumo.

Questa innovazione rappresenta un importante passo avanti per i modelli di codifica open-source, riducendo il divario con i modelli chiusi leader del settore e inaugurando nuove opportunità per una vasta gamma di applicazioni AI.

Il coder DeepSeek della Cina diventa il primo modello open-source a superare GPT-4 Turbo