A boa escrita do DeepSeek-R1, o estilo de pintura do Studio Ghibli do GPT-4o, a dedução de localização geográfica a partir de imagens do OpenAI o3...
Este é um produto de IA fenomenal que tem dominado as telas nos últimos dois meses. Você pode ver claramente: o aprendizado por reforço finalmente pode ser generalizado, e os modelos multimodais estão se tornando cada vez mais utilizáveis. Isso também significa que, em 2025, realmente entraremos no ponto de aplicação e aceleração de implementação dos Agentes.
O anteriormente popular AI Agent - a equipe Manus revelou que, no final do ano passado, o Claude 3.5 Sonnet alcançou o nível necessário para realizar tarefas de planejamento a longo prazo e resolver problemas de forma gradual, o que foi a premissa para o nascimento do Manus.
Agora, com o amadurecimento adicional dos modelos de pensamento profundo e dos modelos multimodais, certamente haverá mais Agentes capazes de lidar com tarefas complexas.
Com base nessa avaliação, no dia 17 de abril, a plataforma de serviços de nuvem e inteligência artificial da ByteDance, "Volcano Engine", lançou um modelo mais robusto voltado para o mercado empresarial - o modelo Doubao 1.5・Deep Thinking, que também marca a estreia do modelo de raciocínio por trás do aplicativo de IA Doubao. Juntamente com isso, foram lançados o modelo Doubao・Text-to-Image 3.0 e uma versão atualizada do modelo de compreensão visual.
Para o modelo lançado desta vez, o presidente da Volcano Engine, Tan Dai, acredita que "o modelo de pensamento profundo é a base para construir um Agente, o modelo deve ter a capacidade de pensar, planejar e refletir bem, e deve definitivamente suportar múltiplas modalidades, assim como os humanos possuem visão e audição, para que o Agente possa lidar melhor com tarefas complexas."
E quando a IA evoluir para uma capacidade de tomada de decisão e execução autônoma de ponta a ponta, entrando nos processos de produção centrais, o Volcan Engine também se preparou com a arquitetura e as ferramentas que permitem que o Agente opere no mundo digital e no mundo físico – a solução OS Agent e o pacote de inferência nativo em nuvem de IA, ajudando as empresas a construir e implantar aplicações de Agente de forma mais rápida e econômica.
Na visão de Tan Dai, desenvolver um Agente é como desenvolver um site ou aplicativo, apenas ter APIs de modelo não resolve completamente o problema, são necessários muitos componentes de IA nativos da nuvem. No passado, a nuvem nativa tinha suas definições centrais, como contêineres, elasticidade, etc.; agora, a IA nativa da nuvem também terá elementos-chave semelhantes. Através de reflexão contínua, exploração e ação rápida na área de IA nativa da nuvem — como criar vários middleware, avaliações, monitoramento, observabilidade, processamento de dados, segurança e componentes relacionados, como Sandbox, o Motor do Vulcão se dedica a se tornar a solução ideal para a infraestrutura da era da IA.
01 Modelo de pensamento profundo do Doubao, pensa, observa e pesquisa como um ser humano.
Desde o lançamento do DeepSeek-R1 no início do ano, várias aplicações ToC integraram o modelo de inferência R1, com exceção do aplicativo Doubao. No início de março, foi lançado no aplicativo Doubao o modo "Pensamento Profundo", que é baseado no modelo de pensamento profundo da Doubao, desenvolvido internamente pela ByteDance.
Agora, este modelo de raciocínio - Doubao 1.5 · Modelo de Pensamento Profundo - é oficialmente lançado e pode ser experimentado e chamado na plataforma Volcano Ark.
Clique no modo de rede, o feijão pode pensar como os humanos ao resolver problemas, pensando, pesquisando e então pensando novamente... até chegar a uma solução.
Este é um exemplo de um cenário de compras, onde, após definir um orçamento, tamanhos e outras restrições, o Doubao recomenda um conjunto adequado de equipamentos de campismo.
Neste problema, o Doubao primeiro dividiu as considerações, planejou as informações necessárias, depois determinou as informações faltantes e fez uma pesquisa online. Aqui, ele pesquisou por 3 rodadas, primeiro procurando preços e desempenho, garantindo que atendiam ao orçamento e às necessidades; também considerou as necessidades específicas das crianças e, por fim, levou em conta o clima, pesquisando avaliações detalhadas relacionadas. Pensando e pesquisando, até obter todo o contexto necessário para a tomada de decisão, apresentou a resposta da inferência.
Além de pesquisar e pensar ao mesmo tempo, o modelo de pensamento profundo do Doubao também possui a capacidade de raciocínio visual, semelhante aos humanos, podendo pensar não apenas com base em palavras, mas também com base nas imagens que vê.
Por exemplo, no cenário de pedir comida, a semana dourada do Dia do Trabalho está chegando, e os amigos que viajam para o exterior não precisam mais tirar fotos e carregá-las para o software de tradução para traduzir o menu, o modelo de pensamento profundo do Doubao pode ajudá-lo a pedir comida diretamente com base nas imagens.
No exemplo abaixo, o modelo de pensamento profundo do Doubao primeiro fez a conversão de taxas de câmbio para controlar o orçamento, em seguida, considerou as preferências dos idosos e das crianças, ao mesmo tempo que evitou cuidadosamente os pratos aos quais eles são alérgicos, apresentando diretamente uma proposta de menu.
Conectividade, pensamento, raciocínio, multimodal, o modelo de pensamento profundo Doubao 1.5 demonstra uma capacidade de raciocínio integrado, capaz de resolver problemas mais complexos.
De acordo com o relatório técnico, o modelo Doubao 1.5・Deep Thinking obteve um desempenho elevado em tarefas de raciocínio em áreas profissionais, como na prova de raciocínio matemático AIME 2024, onde a pontuação igualou-se à do OpenAI o3-mini-high, e os resultados em competições de programação e testes de raciocínio científico também foram próximos ao o1. Em tarefas gerais, como escrita criativa e perguntas de conhecimento humanístico, o modelo também demonstrou uma excelente capacidade de generalização, sendo apto para uma gama mais ampla de cenários de uso.
O modelo de pensamento profundo do Doubao também apresenta características de baixa latência. O relatório técnico indica que este modelo utiliza a arquitetura MoE, com um total de 200B de parâmetros, sendo que apenas 20B são parâmetros ativos, alcançando resultados comparáveis aos melhores modelos com um número menor de parâmetros. Com base em algoritmos eficientes e um sistema de inferência de alto desempenho, o serviço API do modelo Doubao garante alta concorrência, com latências de até 20 milissegundos.
Ao mesmo tempo, ele também tem recursos multimodais e pode usar o modelo de pensamento profundo em uma variedade de cenários, por exemplo, pode entender gráficos complexos de processos de gerenciamento de projetos corporativos, localizar rapidamente informações-chave e responder às perguntas dos clientes com uma forte capacidade de seguir instruções e seguir estritamente fluxogramas; Ao analisar imagens aéreas, a viabilidade do desenvolvimento regional pode ser julgada com base em características geomorfológicas.
Além dos modelos de raciocínio, a família de grandes modelos Doubao também trouxe atualizações para dois modelos. No que diz respeito ao modelo de texto para imagem, Doubao lançou a mais recente versão 3.0, que consegue proporcionar um melhor desempenho de formatação de texto, geração de imagens com qualidade de fotografia e geração de imagens em alta definição de 2K.
O novo modelo não só resolve bem o problema da geração de textos pequenos e longos, como também melhora a formatação de imagens. Por exemplo, os dois cartazes gerados à esquerda, "现形" e "丰收计划", têm detalhes gerados de forma bastante refinada e a formatação é bastante natural, podendo ser utilizados diretamente.
Outra atualização é o modelo de compreensão visual Doubao 1.5. A nova versão tem duas atualizações chave: localização visual mais precisa e uma compreensão mais inteligente de vídeos.
Em termos de posicionamento visual, o modelo de compreensão visual Doubao 1.5 suporta posicionamento de caixa e posicionamento de ponto de alvo múltiplo, alvo pequeno e alvo geral, e suporta contagem de posicionamento, descrição de conteúdo de posicionamento e posicionamento 3D. A melhoria dos recursos de posicionamento visual pode expandir ainda mais os cenários de aplicação do modelo, como cenários de inspeção de loja offline, agentes GUI, treinamento de robôs e treinamento de direção autônoma.
Na capacidade de compreensão de vídeo, o modelo também teve uma grande melhoria, como na capacidade de memorização, na capacidade de resumir a compreensão, na percepção de velocidade e na compreensão de vídeos longos. As empresas podem criar aplicações comerciais mais interessantes com base na compreensão de vídeo, por exemplo, em cenários domésticos, podemos utilizar a capacidade de compreensão de vídeo, juntamente com a busca por vetores, para realizar uma busca semântica em vídeos de vigilância em casa.
Por exemplo, neste caso, a pessoa que tem um gato deseja saber sobre as atividades diárias do gato. Agora, ao pesquisar diretamente "O que o gatinho fez em casa hoje?", é possível retornar rapidamente trechos de vídeo relevantes semanticamente, para que o usuário possa assistir.
Com a ajuda de modelos de raciocínio com compreensão visual e uma reserva maior de capacidade de raciocínio, muitas coisas que antes não podiam ser feitas agora podem ser realizadas, desbloqueando mais cenários. Por exemplo, câmaras com essa funcionalidade certamente serão mais populares, e haverá também um novo espaço de desenvolvimento para óculos de IA, brinquedos de IA, câmaras inteligentes, fechaduras, entre outros.
02 Nuvem, entrando na era da IA Agente
Nos últimos dias, a pesquisadora da OpenAI, Yao Shunyu (autora principal do Deep Research e Operator), apontou em um artigo intitulado "A segunda metade da IA" que, à medida que o aprendizado por reforço finalmente encontrou um caminho que pode ser generalizado, não se limita a funcionar em áreas específicas, como derrotar jogadores de xadrez humanos com o AlphaGo, mas pode alcançar um nível próximo ao de competições humanas em diversas áreas, incluindo engenharia de software, escrita criativa, matemática de nível IMO, operações com mouse e teclado, entre outras. Nesse caso, competir por pontuações em rankings e obter pontuações mais altas em rankings mais complexos se torna mais fácil, mas esse método de avaliação já está ultrapassado.
Agora, o que está em disputa é a capacidade de definir problemas. Em outras palavras, que problemas a IA deve resolver na vida real?
Em 2025, a resposta é o agente de produtividade. Atualmente, os cenários de aplicação de IA estão rapidamente entrando na era da IA Agentic, onde a IA gradualmente consegue completar tarefas completas que exigem um alto nível de especialização e que consomem bastante tempo. Nesse contexto, o Motor Vulcânico também construiu uma série de infraestruturas para que as empresas "definam seu próprio agente genérico".
O mais importante deles é o modelo, que é capaz de planejar, refletir, fazer e executar autonomamente de ponta a ponta, e avançar em direção ao elo de produção principal. Ao mesmo tempo, são necessárias competências de raciocínio multimodal que lhes permitam trabalhar em conjunto com os seus ouvidos, bocas e olhos no mundo real.
Para além do modelo, a pilha tecnológica Infra também precisa de evoluir continuamente. Por exemplo, à medida que a arquitetura MoE demonstra vantagens mais eficientes, esta torna-se gradualmente a arquitetura principal dos modelos, e, consequentemente, a programação adaptada aos modelos MoE requer uma arquitetura e ferramentas de computação em nuvem mais complexas e flexíveis.
Agora, no cenário do Agent corporativo, a Volcano Engine lançou uma arquitetura e ferramentas melhores - a solução OS Agent, que suporta grandes modelos para operar no mundo digital e físico, como um Agent operando um navegador, pesquisando páginas de produtos, realizando a tarefa de comparação de preços de iPhone, e até mesmo um Agent editando vídeos e adicionando trilhas sonoras no Clipchamp em um computador remoto.
Atualmente, a solução OS Agent da Vulcan Engine inclui o modelo Doubao UI-TARS, bem como serviços de funções veFaaS, servidores em nuvem, smartphones em nuvem e outros produtos, permitindo a operação em código, navegadores, computadores, smartphones e outros Agents. Dentre eles, o modelo Doubao UI-TARS integra a compreensão visual da tela, raciocínio lógico, localização de elementos da interface e operações, superando as limitações das ferramentas de automação tradicionais que dependem de regras predefinidas, proporcionando uma base de modelo mais próxima da operação humana para a interação inteligente dos Agents.
No cenário de Agentes Genéricos, o Motor do Vulcão permite que empresas internas, indivíduos ou áreas específicas definam e explorem Agentes conforme necessário através desta solução OS Agent.
No que diz respeito ao Agent de categoria vertical, o Motor do Vulcão explorará áreas de vantagem própria, como o anteriormente lançado "Assistente de Programação Inteligente Trae" e o produto de dados "Data Agent", este último maximizando a capacidade de processamento de dados através da construção de um ciclo de dados.
Por outro lado, com a penetração do Agent, haverá também um consumo muito maior de inferência de modelos. Diante da demanda de inferência em larga escala, o Volcano Engine criou especificamente o conjunto de inferência AI Cloud Native ServingKit, que permite uma implantação de modelos mais rápida e um custo de inferência mais baixo, com um consumo de GPU reduzido em 80% em comparação com soluções tradicionais.
Na visão de Tan Dai, para atender às demandas da era da IA, o Volcano Engine continuará a se concentrar em três áreas: otimização contínua dos modelos para manter a competitividade; redução constante de custos, incluindo despesas, latência e aumento da taxa de transferência; e tornar os produtos mais fáceis de implementar, como ferramentas voltadas para desenvolvedores, como Koushi e HiAgent, além de componentes nativos da nuvem, como o OS Agent. Manter a liderança em produtos e tecnologia também resultará em uma liderança de participação de mercado. Anteriormente, a IDC publicou a análise "Análise do Mercado de Serviços de Modelos Grandes em Nuvem Pública na China, 1Q25", que mostrou que o Volcano Engine ocupa o primeiro lugar com uma participação de mercado de 46,4%.
Em dezembro do ano passado, o número diário médio de chamadas de tokens do modelo de grande escala Doubao era de 40 trilhões. Até o final de março deste ano, esse número já ultrapassou 12,7 trilhões, o que representa um crescimento acelerado de mais de 106 vezes em menos de um ano desde o lançamento do modelo Doubao. No futuro, com a maturação adicional dos modelos de pensamento profundo e raciocínio visual, bem como a otimização da infraestrutura de nuvem de IA, o Agent também impulsionará um maior volume de chamadas de tokens.
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
Pressione a tecla de aceleração do Agente AI da Byte
Autor: Wan Chen
A boa escrita do DeepSeek-R1, o estilo de pintura do Studio Ghibli do GPT-4o, a dedução de localização geográfica a partir de imagens do OpenAI o3...
Este é um produto de IA fenomenal que tem dominado as telas nos últimos dois meses. Você pode ver claramente: o aprendizado por reforço finalmente pode ser generalizado, e os modelos multimodais estão se tornando cada vez mais utilizáveis. Isso também significa que, em 2025, realmente entraremos no ponto de aplicação e aceleração de implementação dos Agentes.
O anteriormente popular AI Agent - a equipe Manus revelou que, no final do ano passado, o Claude 3.5 Sonnet alcançou o nível necessário para realizar tarefas de planejamento a longo prazo e resolver problemas de forma gradual, o que foi a premissa para o nascimento do Manus.
Agora, com o amadurecimento adicional dos modelos de pensamento profundo e dos modelos multimodais, certamente haverá mais Agentes capazes de lidar com tarefas complexas.
Com base nessa avaliação, no dia 17 de abril, a plataforma de serviços de nuvem e inteligência artificial da ByteDance, "Volcano Engine", lançou um modelo mais robusto voltado para o mercado empresarial - o modelo Doubao 1.5・Deep Thinking, que também marca a estreia do modelo de raciocínio por trás do aplicativo de IA Doubao. Juntamente com isso, foram lançados o modelo Doubao・Text-to-Image 3.0 e uma versão atualizada do modelo de compreensão visual.
Para o modelo lançado desta vez, o presidente da Volcano Engine, Tan Dai, acredita que "o modelo de pensamento profundo é a base para construir um Agente, o modelo deve ter a capacidade de pensar, planejar e refletir bem, e deve definitivamente suportar múltiplas modalidades, assim como os humanos possuem visão e audição, para que o Agente possa lidar melhor com tarefas complexas."
E quando a IA evoluir para uma capacidade de tomada de decisão e execução autônoma de ponta a ponta, entrando nos processos de produção centrais, o Volcan Engine também se preparou com a arquitetura e as ferramentas que permitem que o Agente opere no mundo digital e no mundo físico – a solução OS Agent e o pacote de inferência nativo em nuvem de IA, ajudando as empresas a construir e implantar aplicações de Agente de forma mais rápida e econômica.
Na visão de Tan Dai, desenvolver um Agente é como desenvolver um site ou aplicativo, apenas ter APIs de modelo não resolve completamente o problema, são necessários muitos componentes de IA nativos da nuvem. No passado, a nuvem nativa tinha suas definições centrais, como contêineres, elasticidade, etc.; agora, a IA nativa da nuvem também terá elementos-chave semelhantes. Através de reflexão contínua, exploração e ação rápida na área de IA nativa da nuvem — como criar vários middleware, avaliações, monitoramento, observabilidade, processamento de dados, segurança e componentes relacionados, como Sandbox, o Motor do Vulcão se dedica a se tornar a solução ideal para a infraestrutura da era da IA.
01 Modelo de pensamento profundo do Doubao, pensa, observa e pesquisa como um ser humano.
Desde o lançamento do DeepSeek-R1 no início do ano, várias aplicações ToC integraram o modelo de inferência R1, com exceção do aplicativo Doubao. No início de março, foi lançado no aplicativo Doubao o modo "Pensamento Profundo", que é baseado no modelo de pensamento profundo da Doubao, desenvolvido internamente pela ByteDance.
Agora, este modelo de raciocínio - Doubao 1.5 · Modelo de Pensamento Profundo - é oficialmente lançado e pode ser experimentado e chamado na plataforma Volcano Ark.
Clique no modo de rede, o feijão pode pensar como os humanos ao resolver problemas, pensando, pesquisando e então pensando novamente... até chegar a uma solução.
Este é um exemplo de um cenário de compras, onde, após definir um orçamento, tamanhos e outras restrições, o Doubao recomenda um conjunto adequado de equipamentos de campismo.
Neste problema, o Doubao primeiro dividiu as considerações, planejou as informações necessárias, depois determinou as informações faltantes e fez uma pesquisa online. Aqui, ele pesquisou por 3 rodadas, primeiro procurando preços e desempenho, garantindo que atendiam ao orçamento e às necessidades; também considerou as necessidades específicas das crianças e, por fim, levou em conta o clima, pesquisando avaliações detalhadas relacionadas. Pensando e pesquisando, até obter todo o contexto necessário para a tomada de decisão, apresentou a resposta da inferência.
Além de pesquisar e pensar ao mesmo tempo, o modelo de pensamento profundo do Doubao também possui a capacidade de raciocínio visual, semelhante aos humanos, podendo pensar não apenas com base em palavras, mas também com base nas imagens que vê.
Por exemplo, no cenário de pedir comida, a semana dourada do Dia do Trabalho está chegando, e os amigos que viajam para o exterior não precisam mais tirar fotos e carregá-las para o software de tradução para traduzir o menu, o modelo de pensamento profundo do Doubao pode ajudá-lo a pedir comida diretamente com base nas imagens.
No exemplo abaixo, o modelo de pensamento profundo do Doubao primeiro fez a conversão de taxas de câmbio para controlar o orçamento, em seguida, considerou as preferências dos idosos e das crianças, ao mesmo tempo que evitou cuidadosamente os pratos aos quais eles são alérgicos, apresentando diretamente uma proposta de menu.
Conectividade, pensamento, raciocínio, multimodal, o modelo de pensamento profundo Doubao 1.5 demonstra uma capacidade de raciocínio integrado, capaz de resolver problemas mais complexos.
De acordo com o relatório técnico, o modelo Doubao 1.5・Deep Thinking obteve um desempenho elevado em tarefas de raciocínio em áreas profissionais, como na prova de raciocínio matemático AIME 2024, onde a pontuação igualou-se à do OpenAI o3-mini-high, e os resultados em competições de programação e testes de raciocínio científico também foram próximos ao o1. Em tarefas gerais, como escrita criativa e perguntas de conhecimento humanístico, o modelo também demonstrou uma excelente capacidade de generalização, sendo apto para uma gama mais ampla de cenários de uso.
O modelo de pensamento profundo do Doubao também apresenta características de baixa latência. O relatório técnico indica que este modelo utiliza a arquitetura MoE, com um total de 200B de parâmetros, sendo que apenas 20B são parâmetros ativos, alcançando resultados comparáveis aos melhores modelos com um número menor de parâmetros. Com base em algoritmos eficientes e um sistema de inferência de alto desempenho, o serviço API do modelo Doubao garante alta concorrência, com latências de até 20 milissegundos.
Ao mesmo tempo, ele também tem recursos multimodais e pode usar o modelo de pensamento profundo em uma variedade de cenários, por exemplo, pode entender gráficos complexos de processos de gerenciamento de projetos corporativos, localizar rapidamente informações-chave e responder às perguntas dos clientes com uma forte capacidade de seguir instruções e seguir estritamente fluxogramas; Ao analisar imagens aéreas, a viabilidade do desenvolvimento regional pode ser julgada com base em características geomorfológicas.
Além dos modelos de raciocínio, a família de grandes modelos Doubao também trouxe atualizações para dois modelos. No que diz respeito ao modelo de texto para imagem, Doubao lançou a mais recente versão 3.0, que consegue proporcionar um melhor desempenho de formatação de texto, geração de imagens com qualidade de fotografia e geração de imagens em alta definição de 2K.
O novo modelo não só resolve bem o problema da geração de textos pequenos e longos, como também melhora a formatação de imagens. Por exemplo, os dois cartazes gerados à esquerda, "现形" e "丰收计划", têm detalhes gerados de forma bastante refinada e a formatação é bastante natural, podendo ser utilizados diretamente.
Outra atualização é o modelo de compreensão visual Doubao 1.5. A nova versão tem duas atualizações chave: localização visual mais precisa e uma compreensão mais inteligente de vídeos.
Em termos de posicionamento visual, o modelo de compreensão visual Doubao 1.5 suporta posicionamento de caixa e posicionamento de ponto de alvo múltiplo, alvo pequeno e alvo geral, e suporta contagem de posicionamento, descrição de conteúdo de posicionamento e posicionamento 3D. A melhoria dos recursos de posicionamento visual pode expandir ainda mais os cenários de aplicação do modelo, como cenários de inspeção de loja offline, agentes GUI, treinamento de robôs e treinamento de direção autônoma.
Na capacidade de compreensão de vídeo, o modelo também teve uma grande melhoria, como na capacidade de memorização, na capacidade de resumir a compreensão, na percepção de velocidade e na compreensão de vídeos longos. As empresas podem criar aplicações comerciais mais interessantes com base na compreensão de vídeo, por exemplo, em cenários domésticos, podemos utilizar a capacidade de compreensão de vídeo, juntamente com a busca por vetores, para realizar uma busca semântica em vídeos de vigilância em casa.
Por exemplo, neste caso, a pessoa que tem um gato deseja saber sobre as atividades diárias do gato. Agora, ao pesquisar diretamente "O que o gatinho fez em casa hoje?", é possível retornar rapidamente trechos de vídeo relevantes semanticamente, para que o usuário possa assistir.
Com a ajuda de modelos de raciocínio com compreensão visual e uma reserva maior de capacidade de raciocínio, muitas coisas que antes não podiam ser feitas agora podem ser realizadas, desbloqueando mais cenários. Por exemplo, câmaras com essa funcionalidade certamente serão mais populares, e haverá também um novo espaço de desenvolvimento para óculos de IA, brinquedos de IA, câmaras inteligentes, fechaduras, entre outros.
02 Nuvem, entrando na era da IA Agente
Nos últimos dias, a pesquisadora da OpenAI, Yao Shunyu (autora principal do Deep Research e Operator), apontou em um artigo intitulado "A segunda metade da IA" que, à medida que o aprendizado por reforço finalmente encontrou um caminho que pode ser generalizado, não se limita a funcionar em áreas específicas, como derrotar jogadores de xadrez humanos com o AlphaGo, mas pode alcançar um nível próximo ao de competições humanas em diversas áreas, incluindo engenharia de software, escrita criativa, matemática de nível IMO, operações com mouse e teclado, entre outras. Nesse caso, competir por pontuações em rankings e obter pontuações mais altas em rankings mais complexos se torna mais fácil, mas esse método de avaliação já está ultrapassado.
Agora, o que está em disputa é a capacidade de definir problemas. Em outras palavras, que problemas a IA deve resolver na vida real?
Em 2025, a resposta é o agente de produtividade. Atualmente, os cenários de aplicação de IA estão rapidamente entrando na era da IA Agentic, onde a IA gradualmente consegue completar tarefas completas que exigem um alto nível de especialização e que consomem bastante tempo. Nesse contexto, o Motor Vulcânico também construiu uma série de infraestruturas para que as empresas "definam seu próprio agente genérico".
O mais importante deles é o modelo, que é capaz de planejar, refletir, fazer e executar autonomamente de ponta a ponta, e avançar em direção ao elo de produção principal. Ao mesmo tempo, são necessárias competências de raciocínio multimodal que lhes permitam trabalhar em conjunto com os seus ouvidos, bocas e olhos no mundo real.
Para além do modelo, a pilha tecnológica Infra também precisa de evoluir continuamente. Por exemplo, à medida que a arquitetura MoE demonstra vantagens mais eficientes, esta torna-se gradualmente a arquitetura principal dos modelos, e, consequentemente, a programação adaptada aos modelos MoE requer uma arquitetura e ferramentas de computação em nuvem mais complexas e flexíveis.
Agora, no cenário do Agent corporativo, a Volcano Engine lançou uma arquitetura e ferramentas melhores - a solução OS Agent, que suporta grandes modelos para operar no mundo digital e físico, como um Agent operando um navegador, pesquisando páginas de produtos, realizando a tarefa de comparação de preços de iPhone, e até mesmo um Agent editando vídeos e adicionando trilhas sonoras no Clipchamp em um computador remoto.
Atualmente, a solução OS Agent da Vulcan Engine inclui o modelo Doubao UI-TARS, bem como serviços de funções veFaaS, servidores em nuvem, smartphones em nuvem e outros produtos, permitindo a operação em código, navegadores, computadores, smartphones e outros Agents. Dentre eles, o modelo Doubao UI-TARS integra a compreensão visual da tela, raciocínio lógico, localização de elementos da interface e operações, superando as limitações das ferramentas de automação tradicionais que dependem de regras predefinidas, proporcionando uma base de modelo mais próxima da operação humana para a interação inteligente dos Agents.
No cenário de Agentes Genéricos, o Motor do Vulcão permite que empresas internas, indivíduos ou áreas específicas definam e explorem Agentes conforme necessário através desta solução OS Agent.
No que diz respeito ao Agent de categoria vertical, o Motor do Vulcão explorará áreas de vantagem própria, como o anteriormente lançado "Assistente de Programação Inteligente Trae" e o produto de dados "Data Agent", este último maximizando a capacidade de processamento de dados através da construção de um ciclo de dados.
Por outro lado, com a penetração do Agent, haverá também um consumo muito maior de inferência de modelos. Diante da demanda de inferência em larga escala, o Volcano Engine criou especificamente o conjunto de inferência AI Cloud Native ServingKit, que permite uma implantação de modelos mais rápida e um custo de inferência mais baixo, com um consumo de GPU reduzido em 80% em comparação com soluções tradicionais.
Na visão de Tan Dai, para atender às demandas da era da IA, o Volcano Engine continuará a se concentrar em três áreas: otimização contínua dos modelos para manter a competitividade; redução constante de custos, incluindo despesas, latência e aumento da taxa de transferência; e tornar os produtos mais fáceis de implementar, como ferramentas voltadas para desenvolvedores, como Koushi e HiAgent, além de componentes nativos da nuvem, como o OS Agent. Manter a liderança em produtos e tecnologia também resultará em uma liderança de participação de mercado. Anteriormente, a IDC publicou a análise "Análise do Mercado de Serviços de Modelos Grandes em Nuvem Pública na China, 1Q25", que mostrou que o Volcano Engine ocupa o primeiro lugar com uma participação de mercado de 46,4%.
Em dezembro do ano passado, o número diário médio de chamadas de tokens do modelo de grande escala Doubao era de 40 trilhões. Até o final de março deste ano, esse número já ultrapassou 12,7 trilhões, o que representa um crescimento acelerado de mais de 106 vezes em menos de um ano desde o lançamento do modelo Doubao. No futuro, com a maturação adicional dos modelos de pensamento profundo e raciocínio visual, bem como a otimização da infraestrutura de nuvem de IA, o Agent também impulsionará um maior volume de chamadas de tokens.