La tecnología de texto largo se convierte en el nuevo campo de batalla de los grandes modelos, 400,000 tokens o solo es el comienzo
Los grandes modelos están mejorando su capacidad para procesar textos largos a una velocidad asombrosa, pasando de 4000 tokens a 400,000 tokens. La capacidad para textos largos parece haberse convertido en un nuevo "estándar" para los fabricantes de grandes modelos.
Tanto a nivel nacional como internacional, muchas de las principales empresas de tecnología de modelos grandes y organizaciones de investigación están enfocando sus esfuerzos en expandir la longitud del contexto como una dirección clave de actualización. La mayoría de estas empresas son queridas por los mercados de capital, habiendo recibido una gran cantidad de inversiones.
Las empresas de modelos grandes se centran en la tecnología de texto largo por varias razones:
Resolver las dificultades de implementación de aplicaciones. Los textos cortos han limitado la aplicación en muchos escenarios, como personajes virtuales, desarrollo de juegos, análisis en campos profesionales, etc.
Preparar el camino para aplicaciones nativas de Agent y AI en el futuro. Estas aplicaciones necesitan depender de una gran cantidad de información histórica y contexto para mantener la coherencia y una experiencia personalizada.
Mejorar la precisión del modelo. Los textos largos pueden proporcionar más contexto e información detallada, reduciendo la ambigüedad y mejorando la capacidad de inferencia.
Impulsar la implementación de la industria. La tecnología de texto largo ayuda a la aplicación de grandes modelos en campos profesionales como las finanzas y el derecho.
Sin embargo, la tecnología de texto largo enfrenta el dilema del "triángulo imposible": la longitud del texto, la atención y la capacidad de cálculo son difíciles de equilibrar. La principal razón es que la mayoría de los modelos se basan en la estructura Transformer, cuyo mecanismo de autoatención aumenta cuadráticamente en función de la longitud del contexto.
Actualmente hay tres soluciones principales:
Utilizar herramientas externas para ayudar a procesar textos largos
Optimizar el cálculo del mecanismo de autoatención
Utilizar métodos de optimización de modelos
Aunque la tecnología de texto largo aún enfrenta desafíos, las empresas de modelos grandes están explorando constantemente el mejor punto de equilibrio para manejar suficiente información al mismo tiempo que consideran el cálculo de atención y el costo de computación. La capacidad de procesar 400,000 tokens puede ser solo el comienzo, y aún queda un largo camino por recorrer en el futuro.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
21 me gusta
Recompensa
21
9
Compartir
Comentar
0/400
BakedCatFanboy
· 07-04 13:16
Ya hemos llegado a un millón de tokens.
Ver originalesResponder0
BoredApeResistance
· 07-03 00:20
¿Por qué no simplemente hay un número infinito de tokens para negociar 400,000?
Ver originalesResponder0
ImpermanentPhobia
· 07-02 22:15
Conectar un texto largo no es tan bueno como conectar 40,000 imágenes de Rungo.
Ver originalesResponder0
ApeWithAPlan
· 07-02 09:43
sumar aún es temprano, no te apresures a hacer trading
Ver originalesResponder0
WhaleWatcher
· 07-02 09:41
El texto corto realmente ya no es suficiente para jugar.
Ver originalesResponder0
FlashLoanLord
· 07-02 09:41
Disfruta del espectáculo de la batalla de capitales~
Ver originalesResponder0
TestnetScholar
· 07-02 09:27
¡La próxima herramienta para escribir trabajos de investigación ha llegado!
Ver originalesResponder0
WenMoon
· 07-02 09:26
4000 a 400000, ¡pronto 10000000!
Ver originalesResponder0
AirdropBuffet
· 07-02 09:22
Cuanto más largo es, más grande es la mina del minero.
Grandes modelos compiten por la capacidad de textos largos de 400,000 tokens: explorando nuevas fronteras en aplicaciones de IA
La tecnología de texto largo se convierte en el nuevo campo de batalla de los grandes modelos, 400,000 tokens o solo es el comienzo
Los grandes modelos están mejorando su capacidad para procesar textos largos a una velocidad asombrosa, pasando de 4000 tokens a 400,000 tokens. La capacidad para textos largos parece haberse convertido en un nuevo "estándar" para los fabricantes de grandes modelos.
Tanto a nivel nacional como internacional, muchas de las principales empresas de tecnología de modelos grandes y organizaciones de investigación están enfocando sus esfuerzos en expandir la longitud del contexto como una dirección clave de actualización. La mayoría de estas empresas son queridas por los mercados de capital, habiendo recibido una gran cantidad de inversiones.
Las empresas de modelos grandes se centran en la tecnología de texto largo por varias razones:
Resolver las dificultades de implementación de aplicaciones. Los textos cortos han limitado la aplicación en muchos escenarios, como personajes virtuales, desarrollo de juegos, análisis en campos profesionales, etc.
Preparar el camino para aplicaciones nativas de Agent y AI en el futuro. Estas aplicaciones necesitan depender de una gran cantidad de información histórica y contexto para mantener la coherencia y una experiencia personalizada.
Mejorar la precisión del modelo. Los textos largos pueden proporcionar más contexto e información detallada, reduciendo la ambigüedad y mejorando la capacidad de inferencia.
Impulsar la implementación de la industria. La tecnología de texto largo ayuda a la aplicación de grandes modelos en campos profesionales como las finanzas y el derecho.
Sin embargo, la tecnología de texto largo enfrenta el dilema del "triángulo imposible": la longitud del texto, la atención y la capacidad de cálculo son difíciles de equilibrar. La principal razón es que la mayoría de los modelos se basan en la estructura Transformer, cuyo mecanismo de autoatención aumenta cuadráticamente en función de la longitud del contexto.
Actualmente hay tres soluciones principales:
Aunque la tecnología de texto largo aún enfrenta desafíos, las empresas de modelos grandes están explorando constantemente el mejor punto de equilibrio para manejar suficiente información al mismo tiempo que consideran el cálculo de atención y el costo de computación. La capacidad de procesar 400,000 tokens puede ser solo el comienzo, y aún queda un largo camino por recorrer en el futuro.