Tecla de aceleración del agente AI de Byte

2025-04-23 03:39:39

Autor: Wan Chen

La buena escritura de DeepSeek-R1, el estilo de pintura de Studio Ghibli de GPT-4o, la deducción de ubicación geográfica a partir de imágenes de OpenAI o3...

Este es un producto de IA fenomenal que ha estado en tendencia durante los últimos dos meses. Puedes ver claramente que: el aprendizaje por refuerzo finalmente puede generalizarse y los modelos multimodales son cada vez más utilizables. Esto también significa que, en 2025, realmente entramos en el punto de aplicación y aceleración de los agentes.

El equipo de Manus, que fue extremadamente popular anteriormente con su AI Agent, reveló que a finales del año pasado, Claude 3.5 Sonnet alcanzó el nivel necesario para ser un agente en tareas de planificación a largo plazo y en la capacidad de resolver problemas de manera gradual. Esta fue la premisa para el nacimiento de Manus.

Ahora, con la madurez creciente de los modelos de pensamiento profundo y los modelos multimodales, seguramente habrá más agentes capaces de manejar tareas complejas.

Basado en este juicio, el 17 de abril, la plataforma de servicios en la nube y de IA de ByteDance, "Volcano Engine", lanzó un modelo más potente para el mercado empresarial: el modelo Doubao 1.5・Deep Thinking, que también es la primera aparición del modelo de razonamiento detrás de la aplicación de IA Doubao de ByteDance. También se lanzaron junto con él el modelo Doubao・Text-to-Image 3.0 y una versión mejorada del modelo de comprensión visual.

Para el modelo lanzado esta vez, el presidente de Volcano Engine, Tan Dai, considera que "el modelo de pensamiento profundo es la base para construir un Agente. El modelo debe ser capaz de pensar, planificar y reflexionar bien, y debe soportar múltiples modalidades, al igual que los humanos tienen visión y audición, para que el Agente pueda manejar mejor tareas complejas."

Y cuando la IA evolucione hacia decisiones y ejecuciones autónomas de extremo a extremo, entrando en los núcleos de producción, Volcano Engine también ha preparado una arquitectura y herramientas para que los Agentes operen en el mundo digital y físico: la solución OS Agent y el conjunto de inferencia nativo en la nube de IA, ayudando a las empresas a construir y desplegar aplicaciones de Agente de manera más rápida y económica.

En opinión de Tan Cheng, el desarrollo de un agente es como el desarrollo de un sitio web o una aplicación, solo que la API modelo no puede resolver completamente el problema y se requieren muchos componentes nativos de la nube de IA en la nube. En el pasado, el nativo de la nube tenía sus definiciones principales, como contenedores, elasticidad, etc.; Ahora, la IA nativa de la nube tendrá elementos clave similares. Volcano Engine se compromete a convertirse en la solución óptima para la infraestructura en la era de la IA a través del pensamiento continuo, la exploración y la acción rápida en la nube nativa de IA, como varios middleware en torno al modelo, la evaluación, el monitoreo, la observabilidad, el procesamiento de datos, la garantía de seguridad y los componentes relacionados, como los sandboxes.

01 Modelo de pensamiento profundo de Doubao, piensa mientras mira y busca como una persona.

Desde el lanzamiento de DeepSeek-R1 a principios de año, muchas aplicaciones ToC han integrado el modelo de inferencia R1, a excepción de la App Doubao. A principios de marzo se lanzó en la App Doubao el modo "Pensamiento Profundo", que se basa en el modelo de pensamiento profundo Doubao desarrollado internamente por ByteDance.

Ahora, este modelo de razonamiento — Doubao 1.5 · Modelo de pensamiento profundo se publica oficialmente y se puede experimentar y utilizar en la plataforma Volcan Ark.

Al hacer clic en el modo en línea, el Doubao puede pensar, buscar y luego seguir pensando, como lo haría un humano al abordar un problema, con el objetivo final de resolverlo.

Este es un ejemplo en un escenario de compra, donde, dado un presupuesto, tamaño y otras limitaciones, se le pide a Doubao que recomiende un conjunto adecuado de equipo para acampar.

En este asunto, Doubao primero desglosó los puntos a considerar, planificó la información necesaria y luego determinó la información faltante, realizando una búsqueda en línea. Aquí buscó 3 rondas, primero buscando precios y rendimiento, asegurándose de que cumpliera con el presupuesto y las necesidades; también consideró las necesidades individuales de los niños y, por último, tuvo en cuenta el clima, buscando reseñas detalladas relacionadas. Pensando y buscando, hasta obtener todo el contexto necesario para tomar decisiones, presentó una respuesta lógica.

Además de buscar y pensar al mismo tiempo, el modelo de pensamiento profundo de Doubao también posee la capacidad de razonamiento visual, como un humano, no solo puede pensar basándose en el texto, sino también en las imágenes que ve.

Hablando de la situación de pedir comida, se acerca la semana dorada del 1 de mayo, y los amigos que viajan al extranjero ya no necesitan tomar fotos y subirlas a un software de traducción para traducir los menús; el modelo de pensamiento profundo de Doubao puede ayudarte a pedir directamente según la imagen.

En el siguiente ejemplo, el modelo de pensamiento profundo de Doubao primero realizó la conversión de divisas para controlar el presupuesto, luego tuvo en cuenta las preferencias de los ancianos y los niños, y al mismo tiempo evitó cuidadosamente los platos a los que son alérgicos, ofreciendo directamente una propuesta de menú.

Conexión, pensamiento, razonamiento, multimodal, el modelo de pensamiento profundo Doubao 1.5 muestra una capacidad de razonamiento integral, capaz de resolver problemas más complejos.

Según el informe técnico, el modelo Doubao 1.5・Deep Thinking tiene un alto nivel de finalización en tareas de razonamiento en campos profesionales, como en la prueba de razonamiento matemático AIME 2024, donde su puntuación iguala a la de OpenAI o3-mini-high. Los resultados en competiciones de programación y pruebas de razonamiento científico también son cercanos a o1. En tareas generales como la escritura creativa y preguntas sobre conocimientos humanísticos, el modelo también muestra una excelente capacidad de generalización, pudiendo manejar una gama más amplia de escenarios de uso.

El informe técnico muestra que el modelo utiliza una arquitectura MoE con un parámetro total de 200B y un parámetro de activación de solo 20B, que es comparable al modelo superior con parámetros más pequeños. Basado en algoritmos eficientes y sistemas de inferencia de alto rendimiento, el servicio Doubao Model API garantiza una alta simultaneidad con una latencia de tan solo 20 milisegundos.

Al mismo tiempo, también tiene capacidades multimodales, lo que le permite aplicar modelos de pensamiento profundo en una variedad de escenarios. Por ejemplo, puede entender diagramas de flujo complejos de gestión de proyectos empresariales, localizar rápidamente la información clave y, con una poderosa capacidad de seguimiento de instrucciones, responder a las preguntas de los clientes estrictamente de acuerdo con el diagrama de flujo; al analizar imágenes aéreas, puede combinar características topográficas para evaluar la viabilidad del desarrollo de la zona.

Además de los modelos de inferencia, la familia de modelos Daobao también ha traído actualizaciones de dos modelos. En cuanto al modelo de texto a imagen, Daobao ha lanzado la última versión 3.0, que puede lograr un mejor rendimiento en maquetación de texto, generación de imágenes de calidad fotográfica y un método de generación de imágenes en alta definición de 2K.

El nuevo modelo no solo resuelve mejor los problemas de generación de texto pequeño y largo, sino que también mejora la disposición de las imágenes. Por ejemplo, los dos carteles generados a la izquierda, "现形" y "丰收计划", tienen detalles generados de manera más precisa y una disposición más natural, listos para usar.

Otra actualización es el modelo de comprensión visual Doubao 1.5. La nueva versión tiene dos actualizaciones clave: una localización visual más precisa y una comprensión más inteligente de los videos.

En cuanto a la localización visual, el modelo de comprensión visual Doubao 1.5 admite la localización de cuadros y puntos para múltiples objetivos, objetivos pequeños y objetivos generales, y también admite el conteo de localización, la descripción del contenido de localización y la localización 3D, entre otros. La mejora de las capacidades de localización visual permite que el modelo expanda aún más los escenarios de aplicación, como las inspecciones en tiendas físicas, agentes GUI, entrenamiento de robots, entrenamiento de conducción autónoma, etc.

En cuanto a la capacidad de comprensión de video, este modelo también ha mejorado significativamente, como la capacidad de memoria, la capacidad de resumen, la percepción de velocidad y la comprensión de videos largos. Las empresas pueden crear aplicaciones comerciales más interesantes basándose en la comprensión de video; por ejemplo, en un entorno doméstico, podemos utilizar la capacidad de comprensión de video, junto con la búsqueda vectorial, para realizar búsquedas semánticas en los videos de vigilancia del hogar.

Por ejemplo, en el siguiente caso, el dueño de un gato quiere conocer las actividades del gato durante el día, ahora simplemente buscando "¿Qué ha estado haciendo el gatito en casa hoy?" se pueden devolver rápidamente fragmentos de video semánticamente relevantes para que el usuario los vea.

Gracias a los modelos de razonamiento con comprensión visual y una mayor reserva de capacidad de razonamiento, muchas cosas que antes no se podían hacer ahora son realizables, lo que permite desbloquear más escenarios. Por ejemplo, las cámaras con esta funcionalidad seguramente serán más populares, y los anteojos AI, juguetes AI, cámaras inteligentes, cerraduras y otros dispositivos también tendrán un nuevo espacio de desarrollo.

02 Nubes, entrando en la era de la IA Agentic

En los últimos días, la investigadora de OpenAI, Yao Shunyu (autora principal de Deep Research y Operator), señaló en un artículo titulado "La segunda mitad de la IA" que, a medida que el aprendizaje por refuerzo finalmente ha encontrado un camino que puede generalizar, no solo tiene éxito en campos específicos, como vencer a jugadores humanos en el ajedrez con AlphaGo, sino que puede alcanzar niveles cercanos a la competencia humana en diversas áreas como la ingeniería de software, la escritura creativa, las matemáticas de nivel IMO, y las operaciones con ratón y teclado, entre otros. En este contexto, competir por puntajes en listas y obtener puntajes más altos en listas más complejas se volverá más fácil, pero este método de evaluación ya está desactualizado.

Ahora la competencia es la capacidad de definir problemas. En otras palabras, ¿qué problemas debe resolver la IA en la vida real?

En 2025, esta respuesta es el agente de productividad. Actualmente, los escenarios de aplicación de la IA están avanzando rápidamente hacia la era de la IA Agente, donde la IA puede completar tareas completas que requieren un alto nivel de especialización y que consumen mucho tiempo. En este contexto, Volcano Engine también ha construido una serie de infraestructuras para que las empresas "definan su propio agente general".

Lo más importante es el modelo, que puede planificar de forma autónoma, reflexionar, tomar decisiones y ejecutar de manera autónoma de extremo a extremo, avanzando hacia el núcleo de los procesos de producción. Al mismo tiempo, también necesita la capacidad de razonamiento multimodal, para que pueda completar tareas en el mundo real a través de los oídos, la boca y los ojos.

Además del modelo, la pila de tecnología Infra también necesita evolucionar constantemente. Por ejemplo, a medida que la arquitectura MoE muestra ventajas más eficientes, se convierte gradualmente en la arquitectura principal del modelo. Como resultado, la programación adaptada a los modelos MoE necesita arquitecturas y herramientas de computación en la nube más complejas y flexibles.

Ahora, en el contexto del agente empresarial general, Volcano Engine ha lanzado una mejor arquitectura y herramientas: la solución OS Agent, que admite grandes modelos para operar en los mundos digital y físico. Por ejemplo, un agente puede operar un navegador, buscar páginas de productos, realizar la tarea de comparación de precios del iPhone, e incluso un agente puede editar videos y agregar música utilizando Jianying en una computadora remota.

Actualmente, la solución de agente OS de Volcano Engine incluye el modelo Doubao UI-TARS, así como servicios de funciones veFaaS, servidores en la nube, teléfonos en la nube y otros productos, lo que permite la operación sobre código, navegadores, computadoras, teléfonos y otros agentes. Entre ellos, el modelo Doubao UI-TARS integra la comprensión visual de la pantalla, el razonamiento lógico, la localización de elementos de la interfaz y la operación, superando las limitaciones de las herramientas de automatización tradicionales que dependen de reglas preestablecidas, proporcionando una base de modelo más cercana a la operación humana para la interacción inteligente de los agentes.

En el escenario del Agente de tipo general, Volcano Engine permite a las empresas, individuos o campos específicos definir y explorar Agentes según sus necesidades a través de esta solución de Agente OS.

En el área de agentes verticales, Volcano Engine explorará en función de sus áreas de ventaja, como el asistente de programación inteligente "Trae" y el producto de datos "Data Agent", este último maximiza la capacidad de procesamiento de datos al construir un ciclo de retroalimentación de datos.

Por otro lado, con la penetración de Agent, también habrá un mayor consumo de inferencia de modelos. Frente a la demanda de inferencia a gran escala, Volcano Engine ha creado especialmente el conjunto de inferencia AI Cloud Native ServingKit, que permite un despliegue de modelos más rápido y un costo de inferencia más bajo, reduciendo el consumo de GPU en un 80% en comparación con soluciones tradicionales.

Según Tan Dai, para satisfacer las demandas de la era de la IA, Volcano Engine seguirá avanzando en tres áreas: optimización continua de modelos para mantener la competitividad; reducción constante de costos, incluyendo gastos, latencias y aumento de la tasa de transferencia; hacer que los productos sean más fáciles de implementar, como herramientas orientadas a desarrolladores como Koudzi y HiAgent, así como componentes nativos de la nube como OS Agent. Mantener la tecnología y los productos a la vanguardia también permitirá liderar en participación de mercado. Anteriormente, IDC publicó el "Análisis del mercado de servicios de modelos grandes en la nube pública de China, 1Q25" que muestra que Volcano Engine ocupa el primer lugar con una cuota de mercado del 46.4%.

En diciembre del año pasado, el volumen diario de llamadas de tokens del modelo Daobao era de 40 billones. A finales de marzo de este año, esta cifra ya ha superado los 12.7 billones, lo que representa un crecimiento acelerado de más de 106 veces en menos de un año desde el lanzamiento inicial del modelo Daobao. En el futuro, con la maduración adicional de los modelos de pensamiento profundo y razonamiento visual, así como la optimización de la infraestructura en la nube de IA, el Agente también impulsará un mayor volumen de llamadas de tokens.

AGENT32.1%

DEEPSEEK10.19%

GPT24.96%

O31.11%

Ver originales

El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
#BTC#
221k publicaciones
#PI#
185k publicaciones
#ETH#
140k publicaciones
4#GateioInto11#
79k publicaciones
5#ContentStar#
66k publicaciones
6#GT#
62k publicaciones
7#BOME#
60k publicaciones
8#DOGE#
57k publicaciones
9#MAGA#
52k publicaciones
10#SLERF#
51k publicaciones

Anclado