Grandes modelos compiten por la capacidad de textos largos de 400,000 tokens: explorando nuevas fronteras en aplicaciones de IA

robot
Generación de resúmenes en curso

La tecnología de texto largo se convierte en el nuevo campo de batalla de los grandes modelos, 400,000 tokens o solo es el comienzo

Los grandes modelos están mejorando su capacidad para procesar textos largos a una velocidad asombrosa, pasando de 4000 tokens a 400,000 tokens. La capacidad para textos largos parece haberse convertido en un nuevo "estándar" para los fabricantes de grandes modelos.

Tanto a nivel nacional como internacional, muchas de las principales empresas de tecnología de modelos grandes y organizaciones de investigación están enfocando sus esfuerzos en expandir la longitud del contexto como una dirección clave de actualización. La mayoría de estas empresas son queridas por los mercados de capital, habiendo recibido una gran cantidad de inversiones.

Las empresas de modelos grandes se centran en la tecnología de texto largo por varias razones:

  1. Resolver las dificultades de implementación de aplicaciones. Los textos cortos han limitado la aplicación en muchos escenarios, como personajes virtuales, desarrollo de juegos, análisis en campos profesionales, etc.

  2. Preparar el camino para aplicaciones nativas de Agent y AI en el futuro. Estas aplicaciones necesitan depender de una gran cantidad de información histórica y contexto para mantener la coherencia y una experiencia personalizada.

  3. Mejorar la precisión del modelo. Los textos largos pueden proporcionar más contexto e información detallada, reduciendo la ambigüedad y mejorando la capacidad de inferencia.

  4. Impulsar la implementación de la industria. La tecnología de texto largo ayuda a la aplicación de grandes modelos en campos profesionales como las finanzas y el derecho.

Sin embargo, la tecnología de texto largo enfrenta el dilema del "triángulo imposible": la longitud del texto, la atención y la capacidad de cálculo son difíciles de equilibrar. La principal razón es que la mayoría de los modelos se basan en la estructura Transformer, cuyo mecanismo de autoatención aumenta cuadráticamente en función de la longitud del contexto.

Actualmente hay tres soluciones principales:

  1. Utilizar herramientas externas para ayudar a procesar textos largos
  2. Optimizar el cálculo del mecanismo de autoatención
  3. Utilizar métodos de optimización de modelos

Aunque la tecnología de texto largo aún enfrenta desafíos, las empresas de modelos grandes están explorando constantemente el mejor punto de equilibrio para manejar suficiente información al mismo tiempo que consideran el cálculo de atención y el costo de computación. La capacidad de procesar 400,000 tokens puede ser solo el comienzo, y aún queda un largo camino por recorrer en el futuro.

Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • 9
  • Compartir
Comentar
0/400
BakedCatFanboyvip
· 07-04 13:16
Ya hemos llegado a un millón de tokens.
Ver originalesResponder0
BoredApeResistancevip
· 07-03 00:20
¿Por qué no simplemente hay un número infinito de tokens para negociar 400,000?
Ver originalesResponder0
ImpermanentPhobiavip
· 07-02 22:15
Conectar un texto largo no es tan bueno como conectar 40,000 imágenes de Rungo.
Ver originalesResponder0
ApeWithAPlanvip
· 07-02 09:43
sumar aún es temprano, no te apresures a hacer trading
Ver originalesResponder0
WhaleWatchervip
· 07-02 09:41
El texto corto realmente ya no es suficiente para jugar.
Ver originalesResponder0
FlashLoanLordvip
· 07-02 09:41
Disfruta del espectáculo de la batalla de capitales~
Ver originalesResponder0
TestnetScholarvip
· 07-02 09:27
¡La próxima herramienta para escribir trabajos de investigación ha llegado!
Ver originalesResponder0
WenMoonvip
· 07-02 09:26
4000 a 400000, ¡pronto 10000000!
Ver originalesResponder0
AirdropBuffetvip
· 07-02 09:22
Cuanto más largo es, más grande es la mina del minero.
Ver originalesResponder0
Ver más
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)