DeepSeek volta a ser o “matador de preços” mas desta vez não está matando apenas preços

Autor: Xiao Jing

Token está redesenhando as coordenadas de valor na era da IA, a prévia do DeepSeek V4 foi lançada, mais uma vez se tornando uma “matadora de preços”, mas trazendo uma nova proposição para a precificação de tokens. Mesmo quantidade de tokens, nos diferentes sistemas, pode ter custos reais que variam em uma ordem de grandeza, grandes modelos estão caminhando para uma precificação em nível de sistema.

A prévia do DeepSeek V4 finalmente foi lançada, mais uma vez reduzindo o preço dos grandes modelos, o que está em linha com as “características” do DeepSeek.

A precificação V4-Flash, com entrada de 1 yuan e saída de 2 yuan por milhão de tokens, tem custo de apenas 0,2 yuan após cache hit; a precificação V4-Pro, com entrada de 12 yuan e saída de 24 yuan por milhão de tokens, tem custo de 1 yuan na entrada com cache hit, e foi oferecida uma promoção de 25% de desconto até 5 de maio. Ambos os modelos suportam nativamente um contexto de até milhões de tokens.

Neste fim de semana, o DeepSeek V4-Pro continuará com uma oferta por tempo limitado, reduzindo o preço para 25%, e o custo de entrada com cache hit será ainda mais barato, com desconto de 90%. Um engenheiro de IA brincou: “Depois do fim de semana, o DeepSeek V4-Pro estará a apenas 0,025 yuan de ser gratuito”.

Atualmente, já se passaram exatamente dois anos desde a rodada de guerra de preços iniciada pelo DeepSeek V2 em 2024. Nesses dois anos, o custo de inferência de grandes modelos caiu exponencialmente, e considerando fatores como cache hit, o custo efetivo acumulado caiu até cem vezes.

Mas hoje, a importância de reduzir preços é ainda maior do que antes. A IA já mudou para um paradigma de agentes focados em tarefas complexas de longo prazo, onde uma única tarefa envolve dezenas ou centenas de chamadas ao modelo.

Nesse contexto, o lançamento da prévia do DeepSeek V4 vem acompanhado de duas informações importantes. Primeiro, o contexto de milhões de tokens se torna padrão nativo nas duas versões; segundo, há ênfase no preço do cache, com descontos adicionais. Essa combinação levou o preço de entrada e saída a níveis próximos ao de modelos de mesma capacidade, com o objetivo de reduzir ao máximo a fatura total de uma tarefa de agente.


Token já possui uma nova estrutura de preços

Revisando a redução de preços em 2024, ela essencialmente trouxe grandes modelos de “experimentos caros” para “ferramentas utilizáveis”. Na época, melhorias na eficiência de inferência por inovação arquitetônica fizeram o custo de chamadas ao modelo, que na era GPT-4 variava entre 10 a 30 dólares por milhão de tokens, cair rapidamente para a faixa de 1 dólar.

Gráfico: Queda exponencial no preço do token nos últimos dois anos

Isso é um exemplo clássico de “queda absoluta de preço”: desenvolvedores podem usar grandes modelos a baixo custo, abrindo a aplicação real. Mas, nesse estágio, o preço ainda se relacionava ao “custo de uma única chamada”, com tokens sendo uma unidade de precificação única, e o número de chamadas proporcional ao custo de forma quase linear.

Após dois anos, a estrutura de preços do DeepSeek V4 também mudou. Com a introdução do mecanismo de cache na cobrança, os tokens passaram a ser divididos em duas categorias de custo: “novo cálculo” e “cálculo repetido”. Em cenários de alta taxa de cache hit, o preço de entrada pode cair para um décimo ou até menos do que o original. Assim, o preço deixou de ser uma tarifa fixa e passou a ser uma variável fortemente relacionada ao design do sistema.

Gráfico: tokens divididos em “novo cálculo” e “cálculo repetido”

Se considerarmos apenas o preço de lista, o V4 mantém a estratégia de preços baixos habitual do DeepSeek. No mercado doméstico, modelos similares como Alibaba Tongyi, Zhipu GLM, Kimi do Moonlight, têm preços na faixa de 1 a 4 yuan na entrada e 4 a 12 yuan na saída, enquanto o V4-Flash cobra 1 yuan na entrada e 2 yuan na saída, representando cerca de um terço a um quarto da média do setor.

A versão Pro, com 12 e 24 yuan, aproxima-se de modelos de ponta, mas o contexto de milhões de tokens é uma capacidade padrão, não uma opção adicional. Globalmente, a diferença de preço fica ainda mais evidente, sendo aproximadamente uma décima ou até uma cinquenta avos do preço de alguns concorrentes. Por exemplo, o preço oficial do GPT-5.5 é: entrada de 5 dólares / milhão de tokens, cache input de 0,5 dólares / milhão de tokens, saída de 30 dólares / milhão de tokens. O Claude Opus 4.7 mantém a mesma estrutura de preços do Opus 4.6, com cerca de 5 dólares na entrada e 25 dólares na saída por milhão de tokens.

Embora modelos de ponta no exterior não sejam totalmente comparáveis em capacidade, ecossistema ou eficiência de uso de tokens, o preço é um fator decisivo na viabilidade comercial de chamadas em tarefas de agentes. Fabricantes estrangeiros também enfrentam pressão de precificação: Sam Altman admitiu publicamente que a assinatura ChatGPT Pro está operando com prejuízo, e Dario Amodei alertou sobre “preços excessivamente agressivos” na indústria. Em certa medida, o sistema de preços reflete a oferta de capacidade computacional, custos de P&D e estratégias de mercado.

Por isso, essa vantagem de preço tem mais significado agora. Em 2024, o setor buscava “se é possível usar”; na atual era de IA orientada por agentes, a questão central é “é possível operar em escala”.

Uma tarefa de agente geralmente envolve dezenas ou centenas de chamadas ao modelo, com entradas provenientes de prompts do sistema, esquemas de ferramentas e memórias históricas, conteúdos altamente reutilizáveis, e justamente as partes mais propensas a “inflar” os custos.

O foco do DeepSeek V4 foi justamente reduzir esses custos de “cálculo repetido”.


Gráfico: DeepSeek V4 transformou “custo” em uma variável passível de otimização por engenharia. À esquerda, alinhamento de capacidades; à direita, uma queda drástica de custos. Com contexto de milhões de tokens, o uso de poder de inferência e cache caiu drasticamente, tornando tarefas de longo prazo não mais exponencialmente caras. Essa é a verdadeira força motriz por trás da atual guerra de preços.

Analisando a evolução de preços de seus próprios produtos, essa mudança também é perceptível. A geração anterior, V3.2, tinha preço de entrada de 2 yuan (sem cache hit), 0,2 yuan (com cache hit), e saída de 3 yuan; enquanto o V4-Flash reduziu a entrada para 1 yuan e a saída para 2 yuan, com a redução mais direta sendo o “custo de entrada sem cache cortado pela metade”. Em cenários de múltiplas chamadas, o custo acumulado de entrada costuma ser a maior parte, e essa mudança tem um efeito de alavanca muito maior do que a simples redução de preço aparente.

A versão Pro, com preços de 12 e 24 yuan, parece mais cara que o Flash, mas o relatório técnico do DeepSeek afirma que “a versão Pro é limitada pela capacidade de hardware de alta performance, e espera-se que, após a implantação em larga escala dos nós Ascend 950 no segundo semestre, os preços do Pro sejam significativamente reduzidos”. Pode-se entender que o preço atual reflete uma restrição de oferta, não o custo real.

A posição de ambos os modelos também é clara: o Flash é voltado para tarefas de alta concorrência e baixa latência em lote, enquanto o Pro suporta processos complexos de agentes, geração de código de longo prazo e inferência profunda. Segundo o relatório técnico, o DeepSeek já começou a avaliar a capacidade do V4 como agente de código em tarefas reais de P&D, e o compara diretamente com a série Claude.


“Matadora de preços”: Como o DeepSeek conseguiu reduzir os preços?

Como o DeepSeek conseguiu reduzir os preços?

O mecanismo de atenção tradicional, ao lidar com textos longos, tem seu cálculo quadrático em relação ao comprimento da sequência, por exemplo, 1 milhão de tokens exige 64 vezes mais memória do que 128 mil tokens. Essa foi a razão pela qual, no passado, “contextos de milhões de tokens” eram difíceis de usar comercialmente: o uso de memória do cache KV crescia linearmente com o comprimento, e alcançar 1 milhão de tokens exigiria reduzir a concorrência ou multiplicar a quantidade de hardware, o que não era rentável.

Por isso, fabricantes estrangeiros geralmente adotam estratégias de “janela curta padrão, janela longa com preço adicional”: a Anthropic, por exemplo, cobra separadamente por sequências acima de 200K tokens, com preços dobrados.

Gráfico: CSA (atenção esparsa comprimida) do DeepSeek V4 comprime o cache KV, usando Top-k para selecionar o contexto mais importante, reduzindo drasticamente o uso de memória e poder de cálculo em textos longos.

A solução do V4, de forma simples, é uma combinação de “compressão” e “atenção esparsa”. Primeiro, comprime-se o cache KV de cada m tokens em um único item (taxa de compressão CSA de 4, e HCA de 128), depois cada consulta (query) só faz atenção aos top-k itens mais relevantes. Essa abordagem reduz o uso de memória e de poder de cálculo, atacando dois gargalos ao mesmo tempo.


Gráfico: O HCA (atenção compressa de re-compressão) do DeepSeek V4 comprime ao limite o cache KV de sequências mais longas em poucas representações, mantendo informações locais e reduzindo ainda mais o custo de cálculo e armazenamento, sendo uma das principais razões para a queda de custos em contextos de milhões de tokens.

Segundo o relatório técnico, em contexto de 1 milhão de tokens, o FLOPs por token do V4-Pro é apenas 27% do V3.2, e o uso de cache KV é de apenas 10%; o V4-Flash é ainda mais agressivo, com FLOPs de 10% do V3.2 e cache KV de 7%. Combinando com quantização FP4, treinamentos com percepção de quantidade Muon, e otimizações de infraestrutura como o MegaMoE, o V4 conseguiu otimizar toda a cadeia de treinamento e inferência, reduzindo custos.

A baixa precificação é uma consequência natural da arquitetura. Um membro central de uma grande empresa de modelos chineses comentou com o Tencent Tech: “A precificação de APIs de grandes modelos domésticos (inclusive deles próprios) depende principalmente de custos. Ainda não há ninguém que não considere custos ao definir preços. Portanto, vantagens de custo na base tecnológica são extremamente importantes.”

O CTO da Alibaba Cloud, Zhou Jingren, também destacou: “Cada redução de preço é um processo muito sério, que envolve ponderações sobre o desenvolvimento da indústria, feedback de desenvolvedores e usuários empresariais, não sendo uma simples guerra de preços.”


Por que essa “redução de preços” é mais importante agora?

Do lado da demanda, reduzir custos de forma sistêmica é uma necessidade mais urgente. O mais recente relatório de Token Economics da Deloitte cita o exemplo da AT&T: após introduzir o sistema de agentes, o consumo diário de tokens da empresa subiu de 8 bilhões para 27 bilhões. Uma análise do Stevens Institute of Technology aponta que, em diálogos de múltiplas rodadas, há uma “armadilha de crescimento quadrático de tokens”: na 10ª rodada, uma única chamada pode usar até 7 vezes mais tokens do que na primeira.

O preço do modelo determina se um agente pode ser viável comercialmente.

Na revista CIO, uma reportagem de três semanas atrás citou o CEO da Addo AI, Ayesha Khanna, dizendo: “Se você usar um agente contínuo conectado a APIs de modelos de ponta, com alto consumo de tokens, contexto longo, múltiplas etapas de raciocínio e saídas repetidas, a economia se deteriora rapidamente. Em alguns casos, o custo de uma única tarefa pode ser maior do que fazer a mesma coisa manualmente.” Essa é a maior barreira atual para a comercialização de agentes: a tecnologia funciona, mas a conta não fecha.

Revisando as ações do V4, quase todas focaram nesse gargalo: tornar o contexto de milhões de tokens uma capacidade padrão, para que o agente não precise pagar por contexto longo; reduzir o custo de cache hit ao mínimo do setor, aproveitando a característica de uso repetido de prompts do sistema em cenários de agentes. O relatório técnico também destaca que o V4 mantém toda a reasoning content durante chamadas de ferramentas (o V3.2 descartava esse conteúdo ao iniciar uma nova mensagem de usuário), atendendo às necessidades de chamadas múltiplas de agentes.


O V4 consegue realmente reduzir a linha de custos do setor de IA orientada por agentes?

Por fim, uma questão importante: o V4 pode realmente puxar toda a linha de custos da indústria de IA orientada por agentes para baixo? Essa questão é mais complexa do que parece.

Primeiro, se outros fabricantes também fizerem reduções similares, a curva de custos do setor pode realmente diminuir. Mas, como analisado acima, os preços dos modelos dependem mais da estrutura de custos, e as margens de lucro dos fabricantes ainda não podem ser comprimidas no curto prazo, limitando o espaço para redução.

Segundo, a oferta de capacidade computacional de ponta. Como mencionado no relatório técnico, o serviço do V4-Pro atualmente tem capacidade limitada. A estabilidade de preços do Pro depende do avanço na implantação em larga escala de nós Ascend 950 no segundo semestre, e do progresso da DeepSeek na engenharia de hardware multiplataforma.

O relatório técnico na seção 3.1 afirma que a DeepSeek validou a paralelização de especialistas em plataformas Nvidia GPU e Huawei Ascend NPU, sendo a primeira vez que a Ascend foi listada ao lado da Nvidia na lista de hardware validado, tentando desacoplar a inferência de dependência de hardware único. Se essa validação for bem-sucedida, terá um impacto maior na indústria de grandes modelos domésticos a longo prazo.

Terceiro, a estrutura de tokens em cenários de agentes pode ser ainda mais otimizada. Atualmente, os agentes consomem muitos tokens, grande parte dos quais é desperdiçada devido à arquitetura do próprio agente. Além do preço, a forma como o agente usa tokens também faz diferença. Mesmo que o V4 tenha reduzido o preço ao máximo, um design ruim de agente ainda pode fazer a conta sair do controle. Essa é a importância do sistema Harness, que está em alta atualmente.

O DeepSeek V4 realmente colocou uma nova estrutura de preços, tornando o contexto de milhões de tokens uma capacidade padrão, com preços de saída abaixo de um dólar por milhão de tokens, tudo baseado em uma arquitetura sólida, sem depender de subsídios.

Porém, reduzir os custos de toda a indústria não é uma tarefa simples, pois envolve um sistema mais complexo e sistêmico.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar