DeepSeek V4: el model de 1T paràmetres que vol dominar el context llarg

  • DeepSeek V4 arriba amb arquitectura Mixture-of-Experts de fins a 1,6T de paràmetres i prop de 1T als models oberts, activant només desenes de milers de milions per token per guanyar eficiència.
  • La família V4 ofereix una finestra de context de fins a 1 milió de tokens com a nou estàndard, permetent treballar amb repositoris de codi i documentació massiva en una sola passada.
  • Les variants Pro i Flash combinen alt rendiment, multimodalitat i costos d'inferència molt baixos davant de models tancats com GPT o Claude.
  • L'obertura de pesos i la compatibilitat amb API populars acosten la IA de frontera a startups i empreses europees, amb un impacte especial a Espanya i l'ecosistema hispanoparlant.

Model DeepSeek V4 context llarg

La nova generació de models de DeepSeek s'ha posat al centre del debat tecnològic amb una proposta molt clara: context de fins a un milió de tokens i una arquitectura de més d'un bilió de paràmetres pensada per ser eficient i, sobretot, molt més barata que les alternatives tancades dels Estats Units. La companyia xinesa ha posat tota la carn a la graella amb V4, una família que combina pesos oberts, finestra de context gegantina i una estratègia de preus agressiva.

Aquest moviment arriba en un moment en què Europa i Espanya miren amb lupa el cost i la sobirania tecnològica a IA. DeepSeek V4 es presenta com una opció atractiva per a startups, pimes i grans empreses europees que necessiten capacitats de nivell frontier, però no poden –o no volen– dependre del tot d'APIs propietàries amb tarifes elevades ni de maquinari exclusiu com les GPUs NVIDIA més cotitzades.

Una família V4 centrada en 1T de paràmetres i context de 1M de tokens

Arquitectura DeepSeek V4

DeepSeek ha anunciat l'arribada de DeepSeek-V4 Preview com una família de models oberts que gira al voltant de dues idees: una finestra de context de fins a 1 milió de tokens i arquitectures gegants basades en Mixture-of-Experts (MoE). Dins aquesta família destaquen dues variants principals: DeepSeek-V4-Pro i DeepSeek-V4-Flash, totes dues amb aquest context de 1M com a senya d'identitat.

A l'extrem més ambiciós, V4-Pro es mou en xifres de fins a 1,6 bilions de paràmetres totals (1,6T), encara que només activa entre uns 32 i 49 mil milions de paràmetres a cada pas d'inferència gràcies a l'esquema MoE, una cosa crucial per mantenir l'eficiència. En paral·lel, la companyia ha presentat variants més lleugeres, com V4-Flash o V4-Lite, amb uns 284-285 mil milions de paràmetres totals i uns 13 mil milions actius, pensades per a desplegaments on la prioritat és la velocitat i el cost.

El nombre de paràmetres totals situa la família V4 a la part alta del mercat, però el detall important és que només una fracció d'aquests experts s'activa per token. Això permet comportar-se com un model gegantí en capacitat, però amb un consum de còmput més proper al de models molt més petits. És un enfocament que encaixa amb la narrativa de DeepSeek: competir amb els grans models tancats sense disparar-ne el cost d'ús.

La companyia també ha llançat variants preliminars com ara V4-Lite, que serveixen de validació tècnica, i ha anat ajustant el calendari de desplegament. Encara V4 es troba encara en fase de proves limitades en alguns contextos, la família V4 Preview ja es pot fer servir al chatbot oficial ia través de l'API actualitzada de l'empresa, amb el context de 1M com a valor per defecte en els seus serveis.

Arquitectura híbrida i Mixture-of-Experts per fer viable el context llarg

La clau que DeepSeek pugui oferir una finestra de context d'un milió de tokens sense que el cost d'inferència es dispari és a l'arquitectura. El fabricant explica que V4 introdueix una combinació datenció híbrida, Mixture-of-Experts i tècniques de compressió pensades per treballar amb seqüències molt llargues reduint tant FLOPs per token com a memòria necessària.

Entre les peces tècniques que l'empresa esmenta destaquen elements com ara MLA (Atenció Latent Multi-Cap), DSA o DeepSeek Sparse Attention i mecanismes de memòria condicional com Engram. En conjunt, aquests components busquen disminuir el pes del càlcul datenció, especialment quan el model ha de manejar centenars de milers o un milió de tokens en una sola passada.

Segons les dades compartides per la pròpia companyia, en escenaris de 1M de tokens DeepSeek-V4-Pro pot requerir al voltant del 27% dels FLOPs per token i només el 10% de la memòria cau KV davant de versions prèvies com DeepSeek-V3.2. Les variants més lleugeres, com V4-Flash, redueixen encara més aquestes xifres, situant-se com a solucions d'inferència ràpida per a aplicacions on la latència és crítica.

Aquest tipus de millores no es queden només en teoria: l'empresa assegura que la combinació de MoE, atenció dispersa i comprensió de context permet operar amb context ultra-llarg a maquinari menys extrem ia un cost per milió de tokens notablement inferior al de molts models tancats amb finestres de 128K o 200K tokens.

Rendiment en raonament, programació i tasques agèntiques

DeepSeek no només vol destacar per mida i context. En les comparatives internes, la companyia insisteix que V4-Pro i les seves variants s'han optimitzat especialment per a raonament complex, programació i agents, tres fronts que avui concentren bona part de la demanda empresarial. A benchmarks com SWE-bench, orientat a mesurar la capacitat de entendre i modificar repositoris de codi, es parla de xifres per sobre del 80% d'encert, en línia amb models tancats capdavanters.

En raonament més general —incloent-hi matemàtiques, disciplines STEM i problemes tipus cadena de pensament— l'empresa situa V4-Pro com un dels models oberts més forts, i sosté que s'acosta al nivell de propostes de frontera tancades. En coneixement del món, les dades internes el col·loquen al capdavant de l'ecosistema open i només darrere d'alguns models propietaris molt concrets, com ara certes variants avançades de Gemini.

Més enllà dels números, l'èmfasi a tasques agèntiques apunta a un ús que va molt més enllà del xat bàsic. DeepSeek assegura que V4 ja impulsa la seva infraestructura d'agents de codi i sistemes que encadenen múltiples passos, accedeixen a eines i treballen sobre repositoris o bases documentals extenses. Aquest enfocament encaixa amb la tendència actual del sector, on moltes empreses ja no sols busquen un chatbot, sinó assistents capaços d'operar com a “col·legues digitals” dins de fluxos de treball complexos.

Convé prendre aquestes comparatives amb una certa cura: com passa amb gairebé tots els llançaments recents d'IA, bona part de les dades procedeixen de la pròpia companyia i de proves en entorns controlats. Tot i així, la combinació de context llarg, arquitectura eficient i rendiment competitiu està generant atenció en desenvolupadors europeus que comparen costos i capacitats davant d'opcions com GPT, Claude, Flama o Mistral.

Models oberts, pesos publicats i compatibilitat amb APIs populars

Un dels eixos que han donat notorietat a DeepSeek és la seva aposta per l?ecosistema obert. Amb V4, l'empresa reforça aquesta línia: ha publicat l'informe tècnic i ha alliberat pesos oberts de la família a plataformes com Hugging Face, permetent que investigadors, empreses i administracions públiques descarreguin els models i els executin a la seva pròpia infraestructura.

Aquest enfocament de pesos oberts, en contrast amb les propostes completament tancades de molts laboratoris dels Estats Units, té implicacions clares per a Espanya i la Unió Europea. La possibilitat de desplegar aquests models a centres de dades dins de la UE, sota marcs com el RGPD i la futura regulació d'IA de la UE, ofereix una via per mantenir més control sobre les dades sense renunciar a capacitats de primer nivell.

Pel que fa a la integració pràctica, DeepSeek ha optat per reduir friccions: l'API manté la mateixa base_url i és compatible amb els esquemes de ChatCompletions d'OpenAI i les interfícies de Anthropic. Per a molts equips de desenvolupament això significa que migrar proves o parts del trànsit a V4 es limita, en essència, a canviar lidentificador de model a deepseek-v4-pro o deepseek-v4-flash i ajustar alguns paràmetres.

Alhora, la companyia ha marcat un calendari de retirada de models anteriors. Solucions com deepseek-chat i deepseek-reasoner seran descontinuades i redirigides a V4-Flash fins a la seva retirada completa, cosa que obliga els que els feien servir a anar preparant la migració. És una manera clara de concentrar l'oferta a la nova generació i evitar fragmentar la base d'usuaris en massa variants heretades.

Costos d'inferència continguts i focus en eficiència econòmica

La narrativa de DeepSeek gira des dels inicis al voltant de l'eficiència. Amb V4, aquest discurs es reforça amb una combinació d'arquitectura MoE, atenció dispersa i optimització de maquinari que cerca baixar el cost per milió de tokens a nivells molt per sota de les API premium més conegudes. En algunes anàlisis externes es parla de xifres al voltant de 0,30 dòlars per milió de tokens d'entrada per a certes configuracions, una fracció del que cobren models tancats de gamma alta.

En el context europeu, on els costos d'infraestructura i energia són rellevants, aquesta orientació a l'eficiència encaixa bé amb les necessitats de les startups i les pimes. Processar documents legals extensos, historials mèdics llargs o repositoris de programari complets deixa de ser un luxe reservat a empreses amb pressupostos gairebé il·limitats i passa a formar part d'escenaris assumibles per a projectes emergents.

Alguns proveïdors d'infraestructura d'IA ja ofereixen accés d'hora a nodes basats en DeepSeek V4 com a part dels seus catàlegs, cosa que facilita que empreses europees puguin avaluar rendiment i costos reals sense haver de muntar des de zero una infraestructura pròpia. Per a moltes organitzacions, aquesta fase de prova és el pas previ abans de decidir si cal seguir amb un model externalitzat o apostar per desplegaments on-premise.

Paral·lelament, el silenci parcial de la companyia sobre el cost exacte d'entrenament i el maquinari concret utilitzat ha generat dubtes en part del sector. Des del 2025 circulen sospites sobre el volum real de recursos necessaris per entrenar els seus models, incloses estimacions que apuntaven desenes de milers de GPU d'alta gamma. DeepSeek insisteix que ha aconseguit una nova etapa de «context llarg rendible», però encara no ha rebutjat completament les incògnites sobre l'escala material de les seves operacions.

Impacte per a startups i empreses a Espanya i Europa

Per a l'ecosistema emprenedor europeu, i en particular per a les startups tecnològiques a Espanya, l'aparició de models com DeepSeek V4 obre opcions que fins fa poc eren difícils de plantejar. Accedir a un model de més d'un bilió de paràmetres amb context de 1M tokens i pesos oberts permet explorar productes avançats sense dependre en exclusiva de proveïdors de Silicon Valley.

En sectors regulats —finances, salut, legal, administració pública— la possibilitat de executar el model en centres de dades dins de la UE o fins i tot en instal·lacions pròpies resulta especialment rellevant. El compliment del RGPD i de les normatives nacionals sobre protecció de dades esdevé més manejable quan la informació no ha de sortir de jurisdiccions europees per ser processada per un model d'IA.

Startups espanyoles que treballen amb grans volums de documents, com legaltech, healthtech o eines per a desenvolupadors, poden aprofitar el context de 1M tokens per analitzar expedients complets, historials mèdics molt llargs o repositoris de codi monolítics sense necessitat de dividir-los en múltiples trossos i dissenyar complicats sistemes de recuperació. Això redueix complexitat tècnica i, en molts casos, també latència.

Alhora, cal tenir presents els riscos: l'ecosistema d'eines al voltant de DeepSeek és més jove que el d'altres models oberts com Flama, i la documentació i el suport comunitari encara estan madurant. A més, el fet que sigui una empresa xinesa introdueix un component geopolític que algunes organitzacions europees valoren amb cautela, especialment en projectes lligats a administracions o infraestructures crítiques.

Un moviment que pressiona els models tancats d'alt cost

Més enllà de les seves especificacions concretes, DeepSeek V4 s'interpreta dins del sector com un pas més en la pressió competitiva sobre els models tancats més cars del mercat. En fixar el context de 1M tokens com a estàndard en els seus serveis oficials i acompanyar-lo de pesos oberts, l'empresa xinesa llança un missatge clar: el context ultra-llarg ja no ha de ser una característica exclusiva d'uns pocs models propietaris de preu elevat.

Pels grans laboratoris occidentals, això suposa un desafiament. OpenAI, Anthropic o Google han utilitzat històricament la combinació de major qualitat, context ampli i ecosistema propietari com a argument de valor. L'aparició d'una alternativa oberta amb un context fins i tot superior en alguns casos i costos molt continguts obliga a replantejar estratègies de producte i preus, sobretot en segments on el marge de les empreses usuàries és ajustat.

A nivell hispanoparlant, on bona part de les startups operen amb pressupostos molt més modestos que els seus equivalents als Estats Units, la pressió competitiva juga a favor. Com més oferta de models potents i oberts hi hagi, més capacitat tindran els equips tècnics d'escollir en funció de preu, compliment normatiu i cas d'ús, i no només de la marca darrere de l'API.

Alhora, DeepSeek sap que la seva aposta no està exempta de desafiaments: la majoria dels benchmarks i comparatives provenen de la seva pròpia documentació o de proves en fases de vista prèvia, i el mercat encara està pendent de veure com es comporten els models V4 quan es despleguen de forma massiva en entorns de producció exigents, inclosos els europeus.

En conjunt, l'arribada de DeepSeek V4 consolida una tendència que es gestava des de fa un temps: els models de IA de frontera ja no són territori exclusiu de poques empreses amb sistemes tancats i pressupostos astronòmics. Amb una combinació de més de 1T de paràmetres, context d'1M tokens, pesos oberts i un discurs centrat en l'eficiència, la companyia xinesa introdueix una alternativa que empreses i desenvolupadors a Espanya i Europa difícilment podran ignorar en els plans d'adopció i renovació d'infraestructura d'IA.

jornada d'Intel·ligència Artificial
Article relacionat:
Jornades sobre Intel·ligència Artificial apropen la IA a pimes, turisme i àmbit universitari