Grandes modelos compiten por la capacidad de textos largos de 400,000 tokens: explorando nuevas fronteras en aplicaciones de IA

2025-07-02 09:13:56

Generación de resúmenes en curso

La tecnología de texto largo se convierte en el nuevo campo de batalla de los grandes modelos, 400,000 tokens o solo es el comienzo

Los grandes modelos están mejorando su capacidad para procesar textos largos a una velocidad asombrosa, pasando de 4000 tokens a 400,000 tokens. La capacidad para textos largos parece haberse convertido en un nuevo "estándar" para los fabricantes de grandes modelos.

Tanto a nivel nacional como internacional, muchas de las principales empresas de tecnología de modelos grandes y organizaciones de investigación están enfocando sus esfuerzos en expandir la longitud del contexto como una dirección clave de actualización. La mayoría de estas empresas son queridas por los mercados de capital, habiendo recibido una gran cantidad de inversiones.

Las empresas de modelos grandes se centran en la tecnología de texto largo por varias razones:

Resolver las dificultades de implementación de aplicaciones. Los textos cortos han limitado la aplicación en muchos escenarios, como personajes virtuales, desarrollo de juegos, análisis en campos profesionales, etc.
Preparar el camino para aplicaciones nativas de Agent y AI en el futuro. Estas aplicaciones necesitan depender de una gran cantidad de información histórica y contexto para mantener la coherencia y una experiencia personalizada.
Mejorar la precisión del modelo. Los textos largos pueden proporcionar más contexto e información detallada, reduciendo la ambigüedad y mejorando la capacidad de inferencia.
Impulsar la implementación de la industria. La tecnología de texto largo ayuda a la aplicación de grandes modelos en campos profesionales como las finanzas y el derecho.

Sin embargo, la tecnología de texto largo enfrenta el dilema del "triángulo imposible": la longitud del texto, la atención y la capacidad de cálculo son difíciles de equilibrar. La principal razón es que la mayoría de los modelos se basan en la estructura Transformer, cuyo mecanismo de autoatención aumenta cuadráticamente en función de la longitud del contexto.

Actualmente hay tres soluciones principales:

Utilizar herramientas externas para ayudar a procesar textos largos
Optimizar el cálculo del mecanismo de autoatención
Utilizar métodos de optimización de modelos

Aunque la tecnología de texto largo aún enfrenta desafíos, las empresas de modelos grandes están explorando constantemente el mejor punto de equilibrio para manejar suficiente información al mismo tiempo que consideran el cálculo de atención y el costo de computación. La capacidad de procesar 400,000 tokens puede ser solo el comienzo, y aún queda un largo camino por recorrer en el futuro.

TOKEN3.21%

Ver originales

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

21 me gusta