DEEPTECH

Precio en DEEPEXI TECH 01384.HK

DEEPTECH
€0
+€0(0,00%)
Sin datos

*Datos actualizados por última vez: 2026-04-14 15:26 (UTC+8)

A fecha de 2026-04-14 15:26, DEEPEXI TECH 01384.HK (DEEPTECH) tiene un precio de €0, con una capitalización de mercado total de --, un ratio P/E de 0,00 y un rendimiento por dividendo de 0,00%. Hoy, el precio de la acción ha oscilado entre €0 y €0. El precio actual está 0,00% por encima del mínimo del día y 0,00% por debajo del máximo del día, con un volumen de trading de --. Durante las últimas 52 semanas, DEEPTECH ha cotizado entre €0 y €0, y el precio actual está a 0,00% del máximo de las últimas 52 semanas.

Estadísticas clave de DEEPTECH

Ratio P/E0,00
Rendimiento por dividendo (últimos doce meses)0,00%
Acciones en circulación0,00

Preguntas frecuentes sobre DEEPEXI TECH 01384.HK (DEEPTECH)

¿A qué precio cotiza hoy DEEPEXI TECH 01384.HK (DEEPTECH) hoy?

x
DEEPEXI TECH 01384.HK (DEEPTECH) cotiza actualmente a €0, con una variación en 24 h del 0,00%. El rango de trading de 52 semanas es de €0 a €0.

¿Cuáles son los precios máximo y mínimo de 52 semanas para DEEPEXI TECH 01384.HK (DEEPTECH)?

x

¿Cuál es el ratio precio-beneficio (P/E) de DEEPEXI TECH 01384.HK (DEEPTECH) y qué indica?

x

¿Cuál es la capitalización de mercado de DEEPEXI TECH 01384.HK (DEEPTECH)?

x

¿Cuál es el beneficio por acción (BPA) del trimestre más reciente de DEEPEXI TECH 01384.HK (DEEPTECH)?

x

¿Deberías comprar o vender DEEPEXI TECH 01384.HK (DEEPTECH) ahora?

x

¿Qué factores pueden afectar el precio de las acciones de DEEPEXI TECH 01384.HK (DEEPTECH)?

x

¿Cómo comprar acciones de DEEPEXI TECH 01384.HK (DEEPTECH)?

x

Aviso de riesgo

El mercado de valores implica un alto nivel de riesgo y volatilidad en los precios. El valor de tu inversión puede subir o bajar, y es posible que no puedas recuperar la totalidad del importe invertido. El rendimiento pasado no es un indicador fiable de los resultados futuros. Antes de tomar cualquier decisión de inversión, debes evaluar cuidadosamente tu experiencia, situación financiera, objetivos de inversión y tolerancia al riesgo, además de realizar tu propia investigación. Si lo consideras necesario, consulta con un asesor financiero independiente.

Aviso legal

El contenido de esta página se proporciona únicamente con fines informativos y no constituye asesoramiento de inversión o financiero ni recomendaciones de trading. Gate no se hará responsable de ninguna pérdida o daño derivado de dichas decisiones financieras. Además, ten en cuenta que es posible que Gate no pueda ofrecer todos sus servicios en determinados mercados y jurisdicciones, entre los que se incluyen, entre otros, los Estados Unidos de América, Canadá, Irán y Cuba. Para obtener más información sobre las ubicaciones restringidas, consulta el Acuerdo de usuario.

Otros mercados de trading

Publicaciones destacadas de DEEPEXI TECH 01384.HK (DEEPTECH)

SadMoneyMeow

SadMoneyMeow

04-08 04:36
![](https://img-cdn.gateio.im/social/moments-c195308574-89cf3f53e2-8b7abd-badf29) Dip Technology (01384) sube más de 17% intradía; a la hora de redactar este informe, la acción ha subido 11.08% y cotiza en 32.48 HKD, con un volumen de operaciones de 199.6 millones de HKD. Los resultados de Dip Technology para el año fiscal 2025 muestran que los ingresos del año completo aumentaron significativamente 70.8% interanual; la pérdida neta ajustada se redujo de forma notable 71.4%, y la calidad operativa mejoró considerablemente. Lo más destacable es que los ingresos de la solución de inteligencia artificial empresarial FastAGI se dispararon hasta 254 millones de yuanes, lo que representa un aumento de 181.5% interanual, convirtiéndose en la principal fuente de ingresos; esto indica que el motor del negocio ha logrado cambiar con éxito hacia soluciones de IA. Además, Dip Technology anunció previamente una nueva estrategia de producto, fusionando a fondo tres componentes existentes: la plataforma de fusión de datos empresariales FastData, la plataforma de agentes inteligentes empresariales FastAGI y el modelo grande empresarial Deepexi, para actualizarla a un sistema operativo empresarial de nivel IA llamado “DeepexiOS”. La posición central del producto de la compañía también pasó de ofrecer “soluciones Data+AI” a ser una “plataforma base de empleados digitales empresariales para la era de la IA”. (Responsable de la edición: Liu Chang) 【Aviso legal】Este artículo solo representa las opiniones del propio autor y no está relacionado con Hexun. El sitio de Hexun mantiene una postura neutral respecto a las declaraciones y juicios de opinión incluidos en el texto, y no ofrece garantías explícitas o implícitas sobre la exactitud, confiabilidad o integridad de dicho contenido. Se ruega a los lectores que lo tomen únicamente como referencia y asuman toda la responsabilidad por sí mismos. Correo electrónico: news_center@staff.hexun.com
0
0
0
0
WuSaidBlockchainW

WuSaidBlockchainW

04-06 23:51
Autor | Stablecoin Insider / McKinsey×Artemis Compilación | 深潮 TechFlow Enlace del texto original: Introducción: El informe conjunto de McKinsey y Artemis hizo algo que muy pocos en la industria se atreven a hacer: desglosar los datos de volumen de transacciones de las stablecoins. La conclusión es que, de los aproximadamente 35 billones de dólares al año en volumen de transacciones on-chain, solo unos 350k de dólares (aprox. 1%) corresponden a un comportamiento de pago real, y de ese monto, el 58% son operaciones financieras de empresa a empresa, con un crecimiento anual del 733%. El uso de stablecoins en el lado de los consumidores es casi insignificante, y esto no es casualidad: el artículo resume cinco razones estructurales y explica por qué la brecha entre instituciones y particulares no es simplemente una diferencia temporal. El texto completo es el siguiente: La industria de las stablecoins tiene un problema a nivel de titulares. Por un lado, los datos on-chain originales muestran que cada año hay cientos de billones de dólares moviéndose en la cadena; esta cifra ha dado lugar a comparaciones interminables con Visa y Mastercard, y a predicciones sobre la sustitución de SWIFT. Por otro lado, un informe marcadamente “pionero” de McKinsey y Artemis Analytics publicado en febrero de 2026 despojó todo eso y planteó una pregunta más directa: ¿cuánto de ese total es en realidad un pago? La respuesta es aproximadamente 1%. De un volumen anualizado de alrededor de 35 billones de dólares en transacciones con stablecoins, solo unos 390B de dólares representan pagos reales de usuarios finales, como facturas a proveedores, remesas transfronterizas, pago de nóminas y consumos con tarjeta. El resto son actividades de trading, traslados internos de fondos, arbitraje y ciclos de contratos inteligentes automatizados. El informe concluye que las cifras exageradas de los titulares deberían ser un “punto de partida para el análisis, no un indicador sustituto de la adopción de pagos”. Pero dentro de esa línea base real de 350k de dólares hay una historia que vale la pena examinar a fondo, y que casi por completo gira en torno a las finanzas empresariales, no a las billeteras de los consumidores. B2B domina el panorama: lo que los datos realmente dicen Según el análisis de McKinsey/Artemis (tomando como base los datos de actividad de diciembre de 2025), las transacciones de empresa a empresa representan 390B de dólares de todo el volumen de pagos reales de stablecoins, aproximadamente el 58%. Este número equivale a un crecimiento interanual del 733%, impulsado principalmente por pagos de cadena de suministro, liquidación de proveedores transfronterizos y la gestión de liquidez financiera. Asia lidera en actividad geográfica, pero la adopción en América Latina y Europa también se acelera. El resto del ámbito de pagos reales se distribuye entre el pago de nóminas y remesas (390B de dólares), la liquidación de mercados de capitales (8000 millones de dólares) y el gasto con tarjetas asociadas (4500 millones de dólares). Según los datos de McKinsey, el monto gastado con tarjetas asociado a stablecoins creció asombrosamente un 673% interanual, pero en términos absolutos sigue siendo solo una pequeña parte del flujo B2B. Como referencia: ese total de 226B de dólares representa solo el 0.02% del total de pagos global anual de más de 2 billones de dólares estimado por McKinsey. En concreto, el flujo de stablecoins B2B representa aproximadamente el 0.01% del mercado global de pagos B2B de 1600 billones de dólares. Estas cifras son grandes en el contexto de las stablecoins, pero aún son minúsculas dentro del panorama del sistema financiero global. Los datos de velocidad de operación mensual lo hacen más intuitivo. Según los datos citados por BVNK en el informe de McKinsey/Artemis, en enero de 2024 el volumen mensual de pagos con stablecoins era de 5000 millones de dólares; a principios de 2026, esa cifra ya superaba 90B de dólares — — en menos de dos años, creció seis veces, y la aceleración más pronunciada apareció en la segunda mitad de 2025. En cálculos anualizados, esta velocidad de operación ya supera los 390B de dólares. “Los pagos reales con stablecoins están muy por debajo de las estimaciones habituales, lo cual no debilita el potencial a largo plazo de las stablecoins como riel de pagos; solo establece una línea base más clara para evaluar en qué lugar del mercado nos encontramos.” — — McKinsey/Artemis Analytics, febrero de 2026 Por qué existe la brecha: cinco fuerzas estructurales que excluyen a la venta minorista La divergencia entre la adopción explosiva de B2B y la insignificancia del uso de consumidores no es una casualidad, sino el resultado de asimetrías estructurales que favorecen casos de uso empresariales frente a los minoristas. Las cinco fuerzas principales que impulsan la brecha institucional son: 1)La eficiencia financiera derrota la conveniencia del consumidor Los oficiales financieros de las empresas están motivados por dolores concretos y cuantificables: cadenas de agentes intermediarios de SWIFT que requieren entre uno y cinco días de trabajo para liquidar, una ventana de conversión de divisas que inmoviliza liquidez y los costos de intermediarios que se acumulan en cada etapa de la transacción. Las stablecoins resuelven esos tres problemas al mismo tiempo. Para una empresa que paga proveedores en quince países, la contabilidad económica es evidente; para un consumidor que compra café, no lo es. Los incentivos para cambiar en el lado empresarial son de un orden de magnitud mayor que para usuarios individuales. 2)La programabilidad no tiene un valor equivalente en el lado minorista El auge de B2B, en parte, es una historia de pagos programables. Los contratos inteligentes implementan lógica condicional — — disparo por factura, confirmación de entrega, liberación en custodia — — que permiten automatizar a escala todo el proceso de cuentas por pagar. Esto encaja de forma natural con la operación financiera empresarial, porque los pagos de alto valor, estructurados y repetitivos se benefician enormemente de la automatización. Los pagos minoristas carecen, en cualquier escala, de escenarios de disparo con un nivel de paralelismo. Comprar comestibles no requiere condiciones programables; lo que se necesita es algo que funcione como una tarjeta. La complejidad cognitiva de los pagos nativos en blockchain sigue siendo una barrera en el lado minorista, y la programabilidad no ayuda en absoluto a superarla. 3)La arquitectura regulatoria favorece a las instituciones Después de la Ley GENIUS, los operadores institucionales ya habían completado la adaptación de la arquitectura de cumplimiento, como la lucha contra el lavado de dinero y la financiación del terrorismo, reglas de viaje y requisitos de licencias, y establecieron una infraestructura legal sobre la cual operar con confianza. Los equipos financieros empresariales tienen funciones de cumplimiento dedicadas que pueden absorber la fricción de entrada; los consumidores individuales no pueden hacerlo. Como resultado, en la mayoría de jurisdicciones, los canales de entrada de stablecoins para usuarios minoristas siguen siendo operativamente complejos, mientras que los vacíos en la aceptación por parte de comercios continúan existiendo a escala global. Cada pago B2B sin fricción de hoy es un punto de datos que las instituciones usan para justificar una inversión adicional; el ecosistema de consumidores, en cambio, está esperando una entrada de cumplimiento y experiencia de usuario fluida que aún no ha aparecido a gran escala. 4)Ventaja del circuito cerrado Los pagos de stablecoins B2B tuvieron éxito precisamente porque son un circuito cerrado: una empresa envía a otra, ambas partes tienen billeteras, cuentan con infraestructura de cumplimiento y no necesitan una red universal de comercios. Los pagos a consumidores enfrentan el clásico problema del huevo y la gallina: antes de que los consumidores tengan demanda, los comercios no invierten en construir infraestructura de aceptación de stablecoins; y antes de que los consumidores puedan consumir de manera generalizada, los consumidores no activan billeteras. El mundo de las instituciones evita completamente este problema al operar en entornos bilaterales o de consorcio, sin necesidad de ninguna red abierta de comercios. 5)Los incentivos institucionales apuntan hacia upstream Los oficiales financieros empresariales que poseen stablecoins pueden obtener rentabilidad, reducir la exposición cambiaria y mejorar la gestión de liquidez — — estas ventajas se acumulan internamente y compartirlas hacia downstream introduce complejidad o fragilidad competitiva. Promover el uso de stablecoins con los proveedores de los proveedores, empleados o consumidores finales requiere construir una red en la que esas partes downstream se beneficien, y eso no necesariamente coincide con los intereses de rentabilidad del equipo financiero que inicia el proceso. Contexto de mercado Los datos de infraestructura propios de BVNK confirman desde la perspectiva de los operadores el dominio de B2B. La empresa procesó 1.6M de dólares en pagos anualizados de stablecoins en 2025, creciendo 2.3 veces año contra año, y una tercera parte de ese volumen provino del mercado de Estados Unidos. Su lista de clientes (Worldpay, Deel, Flywire, Rapyd, Thunes) está compuesta por líderes en infraestructura B2B transfronteriza y en la infraestructura de pagos de nóminas, no por aplicaciones para consumidores. Tal como señaló BVNK en su repaso de fin de 2025: “Suposición inicial: remesas y transferencias a consumidores liderarán el crecimiento de stablecoins, pero no se convirtieron en el principal motor; el B2B asumió ese rol.” Cuándo el lado minorista alcance — — si es que puede La línea base de McKinsey/Artemis hace que el estado actual sea claramente identificable. Lo que no puede responder es si la brecha entre instituciones se reducirá, se ampliará o quedará permanentemente consolidada. A continuación hay tres escenarios posibles para los próximos 18 meses: Principios de 2026 — — La brecha se amplía aún más No hay señales de que el impulso de B2B se desacelere. La velocidad de operación mensual de más de 30B de dólares continúa, impulsada por que más empresas usan la vía de stablecoins para cuentas por pagar transfronterizas y operaciones financieras. El consumo de stablecoins por parte de consumidores con tarjetas crece ligeramente, pero en términos absolutos sigue siendo insignificante frente al flujo B2B. Incluso si la tasa de adopción minorista avanza lentamente en forma porcentual, la brecha también se amplía en términos absolutos de dólares. Finales de 2026 a 2027 — — Empieza a aparecer el punto de inflexión Varios catalizadores podrían comenzar a cerrar la brecha: stablecoins multi-moneda emitidas por bancos reducen la fricción de entrada minorista; las funciones programables, mediante delegación con AI Agent, se extienden a aplicaciones de consumidores; y, con salarios de economía de trabajos que se pagan en stablecoins, se crea un saldo de consumo downstream para los empleados. El secretario del Tesoro de Estados Unidos, Scott Bessent, predice que la oferta de stablecoins podría alcanzar 3 billones de dólares para 2030; esta trayectoria implica que finalmente aparecerían efectos de red de consumidores. Visión contraria — — Es posible que el lado minorista nunca “alcance”, y tal vez ese sea justamente el punto clave La interpretación más honesta de los datos de McKinsey es que las stablecoins podrían estar evolucionando hacia algo que el informe insinúa de manera tenue: una capa de liquidación programable en internet orientada a máquinas, departamentos financieros e instituciones; y la adopción de consumidores es un beneficio indirecto e integrado, no un caso de uso principal. Si este marco se sostiene, entonces la brecha entre instituciones no es un fracaso de adopción, sino un rasgo de la arquitectura tecnológica natural. Los salarios empresariales pagados con stablecoins podrían, eventualmente, crear gasto de consumo downstream, pero el camino desde la infraestructura B2B hasta las billeteras minoristas es largo y sinuoso, y depende de avances en experiencia de usuario que aún no han aparecido a gran escala. Una línea base honesta El informe de McKinsey/Artemis hizo algo más valioso que simplemente registrar el crecimiento de las stablecoins: estableció una línea base honesta que la industria había echado claramente en falta. Al separar el ruido de las transacciones, la transferencia interna y los ciclos de contratos inteligentes automatizados, reveló un mercado de pagos que realmente está creciendo — — el volumen de pagos reales se duplicó de 2024 a 2025 — — pero lo hizo de manera altamente concentrada hacia el lado institucional, de forma estructural y no accidental. El crecimiento del 733% de B2B no es una historia de consumidores aplazada, sino una historia financiera que se está madurando. Las empresas construidas hoy sobre la vía de las stablecoins están resolviendo problemas operativos reales — — fricción transfronteriza, ineficiencias de bancos corresponsales, retrasos de capital de trabajo — — y esos problemas no tienen relación alguna con si los consumidores tienen una billetera de stablecoins. De todos modos, seguirán construyéndolo.
2
0
0
0
MaticHoleFiller

MaticHoleFiller

04-05 22:45
>   ¡Para invertir en acciones, consulta los informes de análisis de los analistas de Gold Kirin; son autorizados, profesionales, oportunos y completos; te ayudan a descubrir oportunidades temáticas con potencial! (Fuente:DeepTech深科技) Escribe una función y la IA es casi invencible; pero, ¿por qué al mantener un sistema la IA empieza a colapsar? Actualmente, la inteligencia artificial ya ha entrado en el “segundo semestre”. A medida que las capacidades de programación de la IA siguen mejorando, productos como OpenClaw están surgiendo poco a poco; “CLI everything” se está volviendo una realidad: la IA ya no necesita operar el ordenador, sino que convierte todas las interfaces en interfaces de línea de comandos (CLI); habilidades que antes eran “una por una” se están transformando en funciones de software. Ahora, un Agent ya no es solo una herramienta de conversación para ejecutar una tarea puntual, sino que está evolucionando hacia un sistema de operación a largo plazo, que interactúa con el mundo real y ejecuta tareas complejas. Sin embargo, aparece un problema nuevo: durante la evolución continua, ¿puede la IA adaptarse constantemente a entornos nuevos y mantener estable su capacidad de desarrollo? El científico jefe de IA en la “Oficina del CEO/Presidente” de Tencent, Yao Shunyu, mencionó en un blog titulado “The Second Half” que las tareas reales de programación dependen de forma consecutiva, no son paralelizables de manera independiente; pero en el ámbito académico actual no existe un benchmark de este tipo para evaluar las capacidades que la IA necesita en ese escenario, e incluso falta valor para romper el supuesto de independencia entre tareas — algo que durante mucho tiempo se ha aceptado ampliamente, precisamente para simplificar los problemas. Recientemente, un equipo conjunto de la University of Southern California (USC), la University of California, Riverside (UCR), Stanford University, Princeton University, OpenHands, etc., publicó un nuevo benchmark de evaluación, EvoClaw, como una propuesta para resolver el problema anterior. El equipo de investigación extrajo historiales de evolución de código de alta calidad a partir de proyectos de código abierto, para que el Agent complete de manera continua, en un mismo repositorio, decenas de iteraciones funcionales con dependencias entre sí. Los resultados muestran que la IA de primer nivel rinde de forma excelente en tareas de evaluación independientes (con puntajes de 80%+). Sin embargo, cuando entra en escenarios reales de ciclo largo, incluso el puntaje total más alto de Claude Opus 4.6 apenas logra 38.03%. Esto significa que, para tareas con mayor libertad de ejecución, la IA tiende a desviarse de la ruta; todavía existe una brecha significativa frente a lo que realmente puede manejar trabajo de evolución de software continuo y de largo ciclo. (Fuente:arXiv) Este estudio revela que, en la evolución a largo plazo, la IA cae con extrema facilidad en una “bola de nieve” de deuda técnica. Aunque puede seguir agregando nuevas funciones, no logra controlar la acumulación de errores al retornar; finalmente el sistema queda fuera de control. Esto también implica que la programación con IA está cambiando de “escribir código” a “gobernanza del sistema”. El artículo relacionado, titulado 《EvoClaw:Evaluating AI Agents on Continuous Software Evolution》 (EvoClaw:Evaluating AI Agents on Continuous Software Evolution), se publicó recientemente en el sitio web de preprints arXiv[1]. Figura丨Artículo relacionado (Fuente:arXiv) En la actualidad, la evaluación de la programación con IA no coincide con la experiencia real; ¿dónde está el problema? ¿Por qué los modelos punteros que obtienen altas puntuaciones en las pruebas independientes pierden colectivamente en la evaluación EvoClaw? La raíz está en que el paradigma de evaluación ha cambiado. En estudios anteriores, la mayoría de los benchmarks de evaluación de programación convencionales se enfocaban en tareas independientes: se entrega un tema (issue) o una solicitud de extracción (PR, Pull Request); el modelo completa la corrección sobre una instantánea estática del código; si la verificación pasa, la evaluación se considera completada. Pero entre los resultados de benchmarks pasados y la capacidad real de desarrollo existe una brecha que no se puede ignorar: el entorno estático es un estado relativamente ideal, mientras que el entorno real es más complejo y dinámico. Con el avance del tiempo, incluso un bug pequeño de hace meses, tras iteraciones de versión, puede hacerse cada vez más grande como una bola de nieve, y acabar provocando que el sistema colapse. (Fuente:arXiv) El primer autor del artículo, el estudiante de doctorado de la University of Southern California, Deng Gangda, dijo a DeepTech: “La granularidad de los commits y releases existentes es o demasiado fina o demasiado gruesa. Por lo tanto, estos historiales de desarrollo no reflejan el proceso de evolución del software.” Figura丨Deng Gangda (Fuente:entrevistado) El equipo de investigación introdujo por primera vez la dimensión temporal en el sistema de evaluación de la capacidad de programación con IA. Empleó un nivel completamente nuevo — Milestone — para reconstruir la historia de la evolución del software, de modo que pueda mantener a la vez la integridad semántica y la capacidad de conservar dependencias de evolución. Exige que la IA complete secuencialmente múltiples unidades de funcionalidad sobre el mismo repositorio; así no solo se conserva la producción de cada paso, sino que también se convierte en el punto de partida del siguiente. (Fuente:arXiv) Para apoyar la extracción de historiales de evolución de software de alta calidad a partir de grandes repositorios de código abierto, los investigadores, basándose en la potente capacidad de la IA de vanguardia, propusieron un conjunto de canalizaciones automatizadas impulsadas por Agent, DeepCommit. Esto implementa por primera vez la reconstrucción de registros de desarrollo de Git ruidosos en un grafo de dependencias de tareas de Milestone verificables y cohesionadas por función (Milestone DAG), y construye un entorno de evaluación para cada Milestone. Incluye principalmente tres etapas: preprocesamiento del historial de Git, construcción del DAG impulsada por Agent y configuración y verificación del entorno de Milestone. En realidad, reconstruir la evolución histórica del Agent con Milestone no es fácil, porque no solo hay que construir un DAG estático que sea puramente observable; además, hace falta una secuencia de entornos de evaluación ejecutables, y al mismo tiempo asegurar la corrección mientras cambian las dependencias de evolución. Esto significa que, cuando se desordena el orden global de los commits y se vuelven a agrupar y conectar, puede ocurrir que los commits no se puedan aplicar, que las interfaces queden desalineadas y que aparezcan errores masivos de compilación. Para resolver este problema, los investigadores diseñaron un ciclo iterativo de reparación: el Agent analiza activamente los logs de error y modifica dinámicamente el Dockerfile para asegurar que sea ejecutable. Lo más clave es que, basándose en el DAG original, completa dependencias implícitas omitidas; mediante el ajuste de las relaciones de restricciones de “prioridad” entre Milestones, los conflictos de interfaces pueden resolverse adecuadamente. Tras repetidas iteraciones, finalmente se logra recolectar correctamente el 87.1% de los casos de prueba originales. “Comparado con un escenario de una única tarea de programación, la programación autónoma estable, fiable y efectiva de ciclo largo es un tema de investigación más avanzado. Por ejemplo, Anthropic y OpenAI han dejado claro que han trasladado el foco a la capacidad de programación de ciclo largo de sus modelos.”, dijo Deng Gangda. Figura丨Diagrama de la arquitectura de la canalización DeepCommit (Fuente:arXiv) Los investigadores compararon el grafo de evolución generado automáticamente por DeepCommit con las anotaciones manuales de expertos humanos. Lo que les sorprendió fue que ambos adoptaron lógicas de organización diferentes y a la vez se complementaban. En concreto, los Milestone de los expertos humanos suelen estar dentro de una ventana local de tiempo: primero definen el tema y luego reúnen los commits. Es un desglose semántico de arriba hacia abajo; en cambio, DeepCommit, para garantizar una precisión absoluta, parte de las relaciones de dependencia entre commits, reconstruye el hilo de la evolución del software de abajo hacia arriba y enfatiza más la estructura topológica y las restricciones de ejecución. Para la evaluación, esto precisamente demuestra que la clave de DeepCommit consiste en extraer de la historia de desarrollo del código una estructura de Milestones ejecutable y verificable. Según los resultados, DeepCommit puede filtrar Milestones de alta calidad, adecuados para evaluación, y que además son ejecutables y verificables en entornos reales, aportando garantías para la fiabilidad de la evaluación. Al entrar en un desarrollo real, ¿por qué las puntuaciones de los modelos “se desploman” colectivamente? EvoClaw cubre cinco lenguajes principales: Python, Java, Go, Rust y TypeScript. Los proyectos seleccionados abarcan el ciclo de desarrollo real más largo de hasta 750 días. En cuanto a métricas de evaluación, el equipo de investigación no adoptó una tasa de aprobación simple; en su lugar introdujo dos dimensiones más centrales: Recall y Precision, con un F1 ponderado como puntuación de cada Milestone. Donde el Recall se usa para medir la exhaustividad de la implementación de funcionalidades; y la Precision captura en qué medida el modelo al añadir nuevas funciones rompe el código existente. El equipo de investigación probó múltiples combinaciones de marcos y modelos, como Claude Code y OpenHands. Los resultados muestran que en evaluaciones independientes, las puntuaciones de los modelos punteros suelen estar entre 80%-90%; pero después de pasar las pruebas basadas en el benchmark EvoClaw, todas caen de forma drástica. El que obtuvo la puntuación más alta, Claude Opus 4.6, solo obtuvo 38.03%. Figura丨Resultados principales del experimento de EvoClaw (Fuente:arXiv) GPT 5.3 Codex, con una puntuación total integral de 28.88%, queda justo detrás de Opus4.6, ocupando el segundo lugar. Por repositorio, GPT 5.3 Codex rinde más débil en dos proyectos de Rust (Nushell, ripgrep), mientras que en el resto de repositorios puede acercarse e incluso superar a Opus4.6. En cuanto a tasa de resolución completa, incluso Gemini 3 Pro, con la puntuación más alta, solo alcanza 13.37%, y la gran mayoría de las implementaciones correctas corresponden a tareas sin dependencias previas. Según se informó, los investigadores mantuvieron los costos globales dentro de un rango razonable. Por ejemplo, con Claude Opus 4.5, el costo de una evaluación completa es de aproximadamente 500 dólares; Kimi K2.5 y Gemini 3 Flash están dentro de los 50 dólares; los costos de los modelos pequeños serán aún más bajos. (Fuente:arXiv) Entonces, si se diera a los modelos una ventana de desarrollo más larga, ¿podrían al final completar el proyecto al 100%? El estudio da una respuesta negativa: independientemente de lo larga que sea la ventana de desarrollo, el rendimiento final de todos los modelos terminará chocando con un “techo”. Cuanto más tarde se ejecuta una tarea en el orden y cuanto más profundo es el nivel en el DAG, más baja serán la puntuación y la tasa de resolución. La extrapolación fuera de la función de saturación prueba que incluso el óptimo Opus 4.6 tiene su puntaje acumulado atrapado alrededor de una línea asintótica de ~45%. “Aunque Opus 4.6 en el sitio web oficial de Anthropic menciona que se desempeña mejor que 4.5 en tareas de ciclo largo, no proporcionó indicadores de evaluación detallados. EvoClaw verifica su afirmación desde otro ángulo.”, dijo Deng Gangda. Además, en el experimento también se observaron diferencias significativas entre familias de modelos. En concreto, el desempeño de Claude y GPT en escenarios de evolución continua mejora de manera constante con las actualizaciones de versión. Entre ellos, Opus 4.6 ha demostrado su mejor rendimiento en mantenimiento de sistemas en programación de ciclo largo; GPT 5.3 reduce la puntuación debido a su mal desempeño en el dataset de Rust, y por eso ocupa el segundo lugar. (Fuente:arXiv) Lo más inesperado al comparar es que la familia Gemini muestra una tendencia completamente distinta: de 3 Flash a 3 Pro y luego a 3.1 Pro, cada generación arranca más rápido al inicio y tiene mejor desempeño en la fase temprana, pero su desempeño de larga distancia casi no mejora de forma significativa. Deng Gangda explicó: “El claro deterioro de Gemini en ejecuciones de ciclo largo significa que no solo empeora en el seguimiento de instrucciones, sino que cada vez ignora más las necesidades de la Especificación de Requisitos de Software (SRS), además de carecer de mantenimiento del sistema de software que construye.” Cuando los investigadores descompusieron aún más la puntuación total en Recall y Precision, surgió un fenómeno más interesante: el Recall muestra casi una tendencia continuamente creciente, acercándose al crecimiento lineal. Esto significa que, aunque el repositorio se vuelve cada vez más caótico y frágil, el Agent aún es experto en implementar las nuevas funciones objetivo que se le asignan. El verdadero cuello de botella está en la Precision: al Agent le cuesta mantener el sistema existente; la velocidad de acumulación de errores vuelve a superar su capacidad para reparar esos problemas, y ahí está la causa fundamental por la que el desarrollo a largo plazo termina estancándose. Figura丨Izquierda: diagrama ilustrativo de la cadena de errores; derecha: distribución de la cadena de errores (Fuente:arXiv) Para comprender a fondo la razón fundamental por la cual los modelos se descontrolan durante la iteración, el equipo propuso un marco de análisis de Cadenas de Error (Error Chains). Siguen cada test desde el primer momento en que ocurre el error, y observan si el error se hereda, se difunde, se omite o se repara en los Milestones posteriores. Los resultados muestran que la velocidad de aparición de nuevos problemas no se acelera; incluso el modelo repara de manera sustancial parte de los errores históricos bajo la forma de reacción pasiva. Sin embargo, la velocidad de acumulación de errores previos supera con creces la velocidad de reparación, y finalmente cae en una “quiebra de deuda técnica”. Para depurar AI Harness con una evaluación general Recientemente hay un concepto muy candente: “Harness Engineering”, que busca configurar todo el proceso de desarrollo de software en un entorno apto para la participación de Agent. El benchmark EvoClaw ofrece un playground general que evalúa la evolución del código a largo plazo, y es adecuado para depurar el marco AI Harness. Por ejemplo, en los casos de fallo mencionados en este estudio, si un Agent de repente muestra una iteración muy proactiva, o edita y valida de forma constante, es muy posible que el Agent se esté encontrando con dificultades. En ese caso, se pueden construir “barandillas/guardrails” en las ubicaciones correspondientes para detectar los problemas con anticipación e intervenir a tiempo de manera manual, mejorando así la eficiencia. Dado que la arquitectura del modelo le da al Agent una propiedad general de que “implementar nuevas funciones es muy superior a mantener funciones antiguas a largo plazo”, ¿es posible que en el futuro surjan nuevas formas de software y patrones de desarrollo? Por ejemplo, el software podría enfatizar más la flexibilidad y la compatibilidad, o reorganizaciones a gran escala más fiables; o bien, podría volverse más “de una sola vez”: la lógica de negocio específica se genera en tiempo real y no necesita mantenimiento; el foco estaría en reforzar componentes reutilizables e infraestructura. El equipo de investigación considera que, en los patrones de desarrollo, relajar adecuadamente las restricciones sobre la calidad del software puede reducir la cantidad de intervención humana, a cambio de un mayor rendimiento (throughput), acelerando así la iteración del software. Deng Gangda señaló: “Este estudio prueba que vamos por un camino correcto; la capacidad de programación de IA a largo plazo aún no ha encontrado cuellos de botella y puede mejorar de forma estable con el tiempo. Con potencial de que, algún día de repente, la variación cuantitativa de los puntos de la tabla se transforme en un cambio cualitativo que altere el mundo.” Con el desarrollo de la tecnología, es posible que en el futuro la IA evolucione desde la reducción gradual de la participación humana en el desarrollo de software; hacia que la IA proponga nuevas necesidades de forma autónoma para evolucionar el repositorio de código; y finalmente hasta que la IA supere por completo a los humanos, los abandone y logre una autoevolución continua. Referencias: 1. Artículo relacionado: 2. Página de inicio del proyecto: 3. Maquetación:Liu Yaqun Gran cantidad de información, interpretación precisa: todo en la app de Sina Finance
1
0
0
0