O produto de execução de modelos de IA local Ollama foi anunciado publicamente na plataforma X a 24/4, disponibilizando o modelo V4-Flash, lançado no dia anterior pela nova empresa de IA chinesa DeepSeek, no serviço Ollama Cloud. O servidor de inferência está sediado nos EUA e fornece três conjuntos de comandos de um toque para que os programadores liguem diretamente o V4-Flash a fluxos de trabalho populares de desenvolvimento de software de IA, como Claude Code, OpenClaw e Hermes.

deepseek-v4-flash is agora disponível na nuvem do Ollama! Alojado nos EUA. Experimente com Claude Code: ollama launch claude –model deepseek-v4-flash:cloud Experimente com OpenClaw: ollama launch openclaw –model deepseek-v4-flash:cloud Experimente com Hermes: ollama launch hermes…

— ollama (@ollama) 24 de abril de 2026

Pré-visualização DeepSeek V4: duas dimensões, 1M de contexto

De acordo com o anúncio publicado pela documentação oficial da API da DeepSeek a 24/4, o DeepSeek-V4 Preview é disponibilizado em simultâneo em duas dimensões:

Modelo Número total de parâmetros Parâmetros ativos Enquadramento DeepSeek-V4-Pro 1,6 trilião 490 mil milhões Destinado a competir com a flagship fechada DeepSeek-V4-Flash 2.840 mil milhões 130 mil milhões Rápido, eficiente e de baixo custo

Ambas as versões adoptam uma arquitectura Mixture-of-Experts (MoE) e suportam nativamente um contexto longo de 1 milhão de tokens. A DeepSeek declarou no anúncio: «1M de contexto é agora o valor predefinido para todos os serviços oficiais da DeepSeek.»

Inovação de arquitectura: DSA atenção esparsa + compressão por token

As principais melhorias de arquitectura da série V4 incluem:

Compressão por token combinada com DSA (DeepSeek Sparse Attention) — para reduzir drasticamente o custo da computação de inferência e do consumo de memória do cache KV em contextos extremamente longos

Em comparação com a V3.2, no cenário de 1 milhão de tokens de contexto, o V4-Pro precisa apenas de 27% dos FLOPs por token para inferência, e o cache KV precisa apenas de 10%

Suporta a comutação entre dois modos, Thinking e Non-Thinking, para corresponder a necessidades de raciocínio profundo em diferentes tipos de tarefas

No nível da API, é compatível simultaneamente com as especificações OpenAI ChatCompletions e com as APIs da Anthropic, reduzindo o custo de migração dos clientes existentes do Claude/GPT.

Três comandos de arranque imediato da Ollama Cloud

A página oficial do modelo da Ollama, usando o identificador do modelo deepseek-v4-flash:cloud, fornece um serviço de inferência na nuvem. Os programadores podem usar os seguintes três conjuntos de comandos para ligar directamente o V4-Flash aos actuais fluxos de trabalho de desenvolvimento de software de IA:

Fluxo de trabalho Comando Claude Code ollama launch claude --model deepseek-v4-flash:cloud OpenClaw ollama launch openclaw --model deepseek-v4-flash:cloud Hermes ollama launch hermes

Vale notar que o sinal de «servidor nos EUA» é importante. Para empresas e programadores da Europa/América, a maior preocupação ao usar modelos de código aberto chineses é a devolução de dados para a China; ao optar por colocar a camada de inferência do V4-Flash nos EUA, a Ollama significa que o prompt e o conteúdo do código não saem da jurisdição dos EUA, reduzindo o atrito a nível de conformidade e soberania de dados.

Porque é que isto é importante para a indústria de IA

Ao ligar o DeepSeek V4-Flash, a Ollama Cloud e o Claude Code, que antes eram ecossistemas independentes, são gerados três significados em camadas:

Rota de custos: os 130 mil milhões de parâmetros activos do V4-Flash são muito inferiores aos da GPT-5.5 (entrada 5 dólares, saída 30 dólares por 1 milhão de tokens) e a flags como o Claude Opus 4.7; para tarefas de agentes de média/pequena escala, resumos em lote, automação de testes, etc., espera-se que o custo unitário diminua significativamente

Camada intermédia de risco geográfico: como a Ollama é uma camada de inferência intermediária registada nos EUA, permite que os utilizadores empresariais de modelos nativos chineses contornem a preocupação de «enviar dados directamente para o servidor de Pequim do DeepSeek»; esta é uma solução prática para a expansão internacional de modelos de código aberto

Comutação imediata para programadores: os utilizadores do Claude Code e do OpenClaw podem alternar entre modelos numa única linha no terminal, sem necessidade de alterar a estrutura do prompt nem as definições do IDE; para cenários como «testes de regressão com vários modelos» e «tarefas em lote sensíveis a custos», isto liberta efectivamente produtividade em ambiente de produção

Articulação com notícias anteriores do DeepSeek

A divulgação desta vez do V4 e a integração rápida com a Ollama Cloud ocorre num contexto em que a DeepSeek está a negociar a primeira ronda de financiamento externo e uma valorização de 20 mil milhões de dólares. O V4 é a prova de produto fundamental no processo de capitalização da DeepSeek; e, com uma estratégia de código aberto + parceiros de alojamento internacional para difusão rápida, é uma estratégia de disputa de velocidade antes de estabelecer a hegemonia do ecossistema de programadores. Para a OpenAI e a Anthropic, um modelo substituto de código aberto que permite a comutação numa única linha dentro do Claude Code é uma nova variável na disputa pela liderança de fluxos de trabalho de agentes.

Este artigo «DeepSeek V4-Flash chega à Ollama Cloud, servidor nos EUA: Claude Code, OpenClaw com ligação imediata» apareceu primeiro em 鏈新聞 ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

A Anthropic prepara um assistente proactivo “Orbit” que liga seis ferramentas, incluindo GitHub e Figma

Notícias da indústria de IA

De acordo com os achados de código monitorizados pela Beating, a Anthropic está a preparar uma nova funcionalidade proactiva de assistente chamada Orbit que se liga ao Gmail, Slack, GitHub, Calendar, Drive e Figma. A funcionalidade utiliza um mecanismo de opt-in e gera briefings personalizados a partir das ferramentas de trabalho ligadas, enquanto

GateNews18m atrás

Vertex Ventures apoia a startup de IA de Singapura ReN3 com $5M a 5 de maio

Notícias da indústria de IA

De acordo com a Vertex Ventures Southeast Asia and India, a startup de IA empresarial ReN3, com sede em Singapura, angariou 5 milhões de dólares em financiamento de arranque (seed) a 5 de maio para expandir no Sudeste Asiático e investir no desenvolvimento de produto. A empresa planeia aprofundar a sua parceria com canais

GateNews36m atrás

A OpenAI lança o ChatGPT para a aplicação Intune com integração nativa da Microsoft

Notícias da indústria de IA

De acordo com o canal do Telegram Beating, a OpenAI lançou o ChatGPT for Intune, uma aplicação iOS autónoma concebida para organizações empresariais e educativas. A app integra-se nativamente com o Microsoft Intune, permitindo que os departamentos de TI gerirem a aplicação através do seu sistema unificado de gestão de pontos finais pr

GateNews38m atrás

A Palantir regista um aumento de 85% na receita do 1.º trimestre para 1,633 mil milhões de dólares, com pontuação da Rule of 40 a atingir 145%

Ações Notícias da indústria de IA

De acordo com o relatório de resultados do 1.º trimestre de 2026 da Palantir, a receita do primeiro trimestre da empresa de software de análises de dados e IA atingiu 1,633 mil milhões de dólares, acima de 85% em termos homólogos, assinalando a sua maior taxa de crescimento de sempre. A pontuação da regra dos 40 da empresa—uma métrica que mede o crescimento e a rentabilidade combinados—disparou para

GateNews58m atrás

A Meta procura 13 mil milhões de dólares em financiamento para um centro de dados de IA no Texas, liderado pela Morgan Stanley e pelo JPMorgan

Ações Notícias da indústria de IA

Segundo Beating, a Meta procura cerca de 13 mil milhões de dólares em financiamento para um centro de dados de inteligência artificial no Texas, com a Morgan Stanley e a JPMorgan a liderarem a iniciativa. A estrutura de financiamento consistirá sobretudo em dívida, ficando o restante em capital, segundo pessoas familiarizadas com a situação

GateNews1h atrás

A Lattice Semiconductor adquire a AMI por 1,65 mil milhões de dólares a 4 de maio, expandindo-se para software de infraestrutura de IA

Ações Notícias da indústria de IA

Segundo a Reuters, a Lattice Semiconductor anunciou a 4 de maio que vai adquirir a AMI, uma empresa de software de firmware e infraestrutura, por 1,65 mil milhões de dólares, para expandir mais profundamente a gestão de sistemas de IA e a infraestrutura cloud. A AMI especializa-se em firmware BIOS e em software do Baseboard Management Controller (BMC)

GateNews1h atrás

Comentar

0/400

Nenhum comentário