Anthropic 於 4/23 發佈 Claude Code 品質事故檢討，公開承認過去近兩個月內三個疊加的工程錯誤造成 Claude Code 使用品質下降，並同步將影響波及 Claude Agent SDK 與 Claude Cowork。公司表示「我們非常重視關於模型退化的回報，從未故意降低模型能力」，並於 4/23 為所有訂閱者重置用量上限作為補償。

Tres cronologías de los tres bugs y las causas técnicas subyacentes

Problema Período de vigencia Causa raíz Versión de reparación Degradación del presupuesto de inferencia 3/4–4/7 effort de reasoning; por defecto pasa de high a medium, el usuario percibe que el modelo “se vuelve más tonto” 4/7 Reversión Limpieza de caché bug 3/26–4/10 “thinking” de sesiones inactivas de más de 1 hora; la caché se limpia en cada ronda, no solo una vez v2.1.101 Prompt conciso con efecto rebote 4/16–4/20 nueva instrucción del sistema “texto entre llamadas a herramientas ≤25 caracteres”, el ablation detecta una disminución global de la inteligencia 3% v2.1.116

Degradación del razonamiento: el costo de reducir la latencia

3/4 Anthropic ajustó el effort de reasoning de Claude Code por defecto de high a medium, con el objetivo de acortar la latencia de respuesta. Pero este cambio hace que el modelo se sienta “más tonto” en tareas de razonamiento de código y depuración. Después de la reversión del 4/7, ahora Opus 4.7 tiene por defecto xhigh, mientras que los otros modelos mantienen high. La empresa admite: la evaluación interna antes del cambio no logró detectar esta degradación.

Bug de limpieza de caché: un error implícito en el límite entre sistemas

3/26 Anthropic introdujo una optimización de prompt caching para sesiones inactivas de más de una hora. El diseño original era “limpiar el caché de thinking una vez cuando se alcanza una hora de inactividad”, pero en la práctica se convirtió en “al activarse la inactividad, limpiar en cada ronda”, lo que provoca que Claude se comporte con “amnesia, repetición” en sesiones largas, y que los cache miss en cada ronda consuman rápidamente el uso del usuario. Anthropic señaló que este bug “existe en la intersección del manejo del contexto de Claude Code, la Anthropic API y el extended thinking”, involucrando múltiples límites de sistemas, y que es un error implícito difícil de capturar con pruebas unitarias. La reparación se publicó el 4/10 en v2.1.101.

Instrucción concisa de 25 caracteres: solo el ablation descubre una disminución de inteligencia del 3%

4/16 Anthropic añadió una instrucción del sistema: “la salida de texto entre llamadas a herramientas debe mantenerse dentro de 25 caracteres”, con la intención de reducir explicaciones extensas del modelo y hacer la experiencia más limpia. En ese momento, las pruebas internas no detectaron la degradación, pero tras un ablation comparativo más riguroso, la compañía descubrió que esta instrucción provocó aproximadamente una caída global de la inteligencia de 3% en ambos modelos, Opus 4.6 y 4.7. El 4/20 se revirtió en v2.1.116. Este incidente pone de relieve que incluso una redacción pequeña de un system prompt puede producir un impacto estructural no previsto en el comportamiento del modelo.

Alcance del impacto

Capa de producto: Claude Code (los tres problemas se ven afectados), Claude Agent SDK (①②), Claude Cowork (todos)

Capa de modelo: Sonnet 4.6, Opus 4.6, Opus 4.7

Infraestructura base de API: no se vio afectada

En términos de percepción del usuario, se manifestó como: disminución de la calidad de respuesta y de la “inteligencia”, aumento de la latencia, pérdida de contexto a mitad de conversation, y consumo de uso más rápido que el esperado.

Compensación y mejoras de proceso

Anthropic, el 4/23, reinició el límite de uso para todos los suscriptores como compensación directa. A la par, las mejoras de proceso prometidas incluyen:

Implementar un paquete de evaluaciones (evaluation suite) más amplio para cambios de system prompt

Mejorar la herramienta de Code Review para detectar regresiones antes

Estandarizar los criterios de las pruebas internas en un build público, evitando la divergencia entre “versiones internas” y “versiones para el exterior”

Añadir un período de soak y un rollout progresivo a los cambios que puedan afectar la inteligencia del modelo

A las enseñanzas para los usuarios

Para los usuarios que dependen de Claude Code para el desarrollo y la investigación diarios, este postmortem tiene tres puntos clave para llevarse: primero, si entre mediados de marzo y el 20 de abril percibiste que el modelo Claude “se ponía más tonto”, o si Claude Code tuvo un olvido anormal en sesiones largas, no era una falsa impresión tuya ni un prompt inadecuado; segundo, los usuarios que durante ese período vieron que el límite de uso se consumía rápidamente pueden verificar después del 4/23 si Anthropic ya lo ha restablecido automáticamente; tercero, incluso un ajuste de prompt de “menos de 25 caracteres” puede generar un impacto sistémico en el comportamiento global del modelo: este es un riesgo común en la ingeniería de productos LLM.

En comparación con otros competidores que suelen responder con silencio o “esto es un mal uso por parte del usuario” cuando se cuestiona la degradación del modelo, la divulgación proactiva de Anthropic y su transparencia técnica establecen un ejemplo de referencia para la revisión de incidentes de productos de IA.

Este artículo sobre cómo Anthropic reconoció tres bugs superpuestos en Claude Code: degradación del razonamiento, olvido en caché, y efecto rebote de la instrucción de 25 caracteres, apareció por primera vez en 鏈新聞 ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Mitos de Anthropic ¡demasiado poderoso! La Casa Blanca estaría considerando exigir que un nuevo modelo de IA pase una revisión de seguridad gubernamental antes de su lanzamiento

Noticias de la industria de la IA

Debido a la poderosa capacidad y a los riesgos de seguridad del Mythos de Anthropic, la Casa Blanca de Estados Unidos está considerando implementar una revisión gubernamental antes del lanzamiento público de un nuevo modelo de IA. Se crearía un grupo de trabajo interdepartamental para auditarlo, tomando como referencia el modelo del Reino Unido para unificar los estándares. El cambio de política contrasta de forma marcada con la anterior actitud de laissez-faire. La controversia sobre los contratos de Anthropic y el Pentágono y los riesgos para la seguridad nacional sigue en curso; la cooperación de IA para usos militares y civiles se acelera, y equilibrar la innovación con la seguridad sigue siendo un reto.

ChainNewsAbmediaHace5m

OpenClaw lanza la versión 2026.5.4 el 5 de mayo, optimizando la instalación de complementos y el inicio del gateway

Noticias de la industria de la IA

Según BlockBeats, OpenClaw lanzó la versión 2026.5.4 el 5 de mayo, con mejoras en la instalación de plugins, el inicio del gateway y la estabilidad de la plataforma. La actualización incluye una recuperación de paquetes de plugins más fluida entre npm y ClawHub, rutas de inicio del gateway más rápidas con menos escaneo en frío ov

GateNewsHace12m

Vobiz.ai asegura $1M financiación semilla para la infraestructura de IA de voz

Noticias de la industria de la IA

La empresa con sede en Bengaluru Vobiz.ai, una startup de infraestructura de telefonía para IA de voz, recaudó 1 millón de dólares en una ronda semilla liderada por Piper Serica VC Fund, según la empresa. Fundada por ex ejecutivos de Plivo y Finin Suman Gandham y Vikash Srivastava, Vobiz

GateNewsHace28m

El presidente de OpenAI, Brockman, expone en el tribunal que sus participaciones son de 30 mil millones de dólares, y que su inversión privada está altamente entrelazada con Altman

Noticias de la industria de la IA

El 4 de mayo, en la sala del tribunal del caso de Musk se reveló que Greg Brockman posee alrededor de 30 mil millones de dólares en acciones de OpenAI, estrechamente entrelazadas con las inversiones privadas de Sam Altman, e implicando tres intereses: Cerebras, Helion Energy y la fundación familiar de Altman. Este entrelazamiento se considera evidencia de la motivación de Brockman para apoyar la comercialización, y también toca las controversias de gobernanza sobre la transición de OpenAI de una entidad sin fines de lucro a una con fines de lucro.

ChainNewsAbmediaHace34m

La Comisión Europea contactó a Anthropic Mythos: Dombrovskis confirma la intervención de la UE en modelos de IA confidenciales

Noticias de la industria de la IA

La Comisión Europea confirma que está en conversaciones con Anthropic sobre las implicaciones técnicas y regulatorias de Mythos, teniendo en cuenta el acceso asimétrico entre EE. UU. y Europa en materia de IA de ciberseguridad. Podría impulsar un acceso condicionado mediante herramientas como la Ley de IA, la normativa de subvenciones extranjeras y NIS2/DORA, exigiendo que Mythos ofrezca acceso equivalente para bancos europeos o que proporcione resultados de pruebas; luego se observarán las respuestas y la transparencia de Glasswing.

ChainNewsAbmediaHace36m

Actualización de la cadena de suministro de teléfonos de OpenAI: ¿procesador exclusivo de MediaTek? La producción en masa se adelanta a la primera mitad de 2027

Noticias de la industria de la IA

Guo Mingchi indica que OpenAI está acelerando el desarrollo del primer teléfono móvil con un agente de IA, con el objetivo de producirlo en masa a mediados de 2027, o bien de permitir que MediaTek obtenga en exclusiva los pedidos de procesadores, con un chip personalizado basado en el Dimensity 9600, producido en el segundo semestre de 2026 por el proceso N2P de TSMC. Las especificaciones clave incluyen ISP de alto rango dinámico, doble NPU, LPDDR6, UFS 5.0 y seguridad pKVM. Si sale bien, en 2027—2028 se enviarán aproximadamente 30 millones de unidades, lo que tendrá una importancia significativa para la narrativa del IPO de OpenAI y su entrada en el amplio mercado de consumo.

ChainNewsAbmediaHace44m

Comentar

0/400

Sin comentarios