La compétition des grands modèles pour la capacité de traitement de textes longs de 400 000 tokens : explorer de nouvelles frontières des applications de l'IA.
La technologie des longs textes devient un nouveau champ de bataille pour les grands modèles, 400 000 tokens pourraient n'être que le début.
Les grands modèles améliorent leur capacité à traiter des longs textes à une vitesse incroyable, passant de 4000 tokens à 400 000 tokens. La capacité aux longs textes semble être devenue la nouvelle "norme" pour les fournisseurs de grands modèles.
Que ce soit au niveau national ou international, de nombreuses entreprises et institutions de recherche de premier plan dans le domaine des technologies de grands modèles considèrent l'extension de la longueur de contexte comme une priorité pour leurs mises à niveau. La plupart de ces entreprises sont les chouchous des marchés financiers et ont reçu d'importants investissements.
Les entreprises de grands modèles se concentrent sur la technologie des longs textes pour plusieurs raisons :
Résoudre les difficultés de mise en œuvre des applications. Les courts textes limitent l'application dans de nombreux scénarios, tels que les personnages virtuels, le développement de jeux, l'analyse dans des domaines spécialisés, etc.
Préparer le terrain pour les applications natives d'Agent et d'IA. Ces applications doivent s'appuyer sur une grande quantité d'informations historiques et de contexte pour maintenir la cohérence et une expérience personnalisée.
Améliorer la précision du modèle. Les longs textes peuvent fournir plus de contexte et d'informations détaillées, réduisant ainsi l'ambiguïté et améliorant la capacité de raisonnement.
Promouvoir l'implantation industrielle. La technologie des longs textes aide à l'application de grands modèles dans des domaines professionnels tels que la finance et le droit.
Cependant, la technologie des longs textes est confrontée au dilemme du "triangle impossible" : il est difficile de concilier la longueur du texte, l'attention et la puissance de calcul. La principale raison en est que la plupart des modèles sont basés sur la structure Transformer, dont le mécanisme d'auto-attention augmente de manière quadratique en fonction de la longueur du contexte.
Actuellement, il existe principalement trois solutions :
Utiliser des outils externes pour traiter des longs textes
Optimiser le calcul du mécanisme d'attention auto
Utiliser des méthodes d'optimisation de modèle
Bien que la technologie des longs textes ait encore des défis à relever, les entreprises de grands modèles explorent constamment le meilleur équilibre pour traiter suffisamment d'informations tout en prenant en compte le calcul de l'attention et le coût de la puissance de calcul. La capacité de traitement de 400 000 tokens n'est peut-être qu'un début, et il reste encore un long chemin à parcourir.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
21 J'aime
Récompense
21
9
Partager
Commentaire
0/400
BakedCatFanboy
· 07-04 13:16
Nous avons déjà atteint un million de tokens.
Voir l'originalRépondre0
BoredApeResistance
· 07-03 00:20
Pourquoi ne pas simplement en avoir une infinité en faisant frémir 400 000 tokens ?
Voir l'originalRépondre0
ImpermanentPhobia
· 07-02 22:15
Il vaut mieux accepter quarante mille images que de prolonger un long texte.
Voir l'originalRépondre0
ApeWithAPlan
· 07-02 09:43
monter à bord encore tôt ne soyez pas pressé de trader
Voir l'originalRépondre0
WhaleWatcher
· 07-02 09:41
Le texte court ne suffit vraiment plus.
Voir l'originalRépondre0
FlashLoanLord
· 07-02 09:41
Il suffit de regarder le spectacle de la guerre des capitaux~
Voir l'originalRépondre0
TestnetScholar
· 07-02 09:27
Le prochain outil pour écrire des thèses arrive.
Voir l'originalRépondre0
WenMoon
· 07-02 09:26
4000 à 400 000, bientôt 10 millions.
Voir l'originalRépondre0
AirdropBuffet
· 07-02 09:22
Plus la longueur est grande, plus le trou du mineur est grand.
La compétition des grands modèles pour la capacité de traitement de textes longs de 400 000 tokens : explorer de nouvelles frontières des applications de l'IA.
La technologie des longs textes devient un nouveau champ de bataille pour les grands modèles, 400 000 tokens pourraient n'être que le début.
Les grands modèles améliorent leur capacité à traiter des longs textes à une vitesse incroyable, passant de 4000 tokens à 400 000 tokens. La capacité aux longs textes semble être devenue la nouvelle "norme" pour les fournisseurs de grands modèles.
Que ce soit au niveau national ou international, de nombreuses entreprises et institutions de recherche de premier plan dans le domaine des technologies de grands modèles considèrent l'extension de la longueur de contexte comme une priorité pour leurs mises à niveau. La plupart de ces entreprises sont les chouchous des marchés financiers et ont reçu d'importants investissements.
Les entreprises de grands modèles se concentrent sur la technologie des longs textes pour plusieurs raisons :
Résoudre les difficultés de mise en œuvre des applications. Les courts textes limitent l'application dans de nombreux scénarios, tels que les personnages virtuels, le développement de jeux, l'analyse dans des domaines spécialisés, etc.
Préparer le terrain pour les applications natives d'Agent et d'IA. Ces applications doivent s'appuyer sur une grande quantité d'informations historiques et de contexte pour maintenir la cohérence et une expérience personnalisée.
Améliorer la précision du modèle. Les longs textes peuvent fournir plus de contexte et d'informations détaillées, réduisant ainsi l'ambiguïté et améliorant la capacité de raisonnement.
Promouvoir l'implantation industrielle. La technologie des longs textes aide à l'application de grands modèles dans des domaines professionnels tels que la finance et le droit.
Cependant, la technologie des longs textes est confrontée au dilemme du "triangle impossible" : il est difficile de concilier la longueur du texte, l'attention et la puissance de calcul. La principale raison en est que la plupart des modèles sont basés sur la structure Transformer, dont le mécanisme d'auto-attention augmente de manière quadratique en fonction de la longueur du contexte.
Actuellement, il existe principalement trois solutions :
Bien que la technologie des longs textes ait encore des défis à relever, les entreprises de grands modèles explorent constamment le meilleur équilibre pour traiter suffisamment d'informations tout en prenant en compte le calcul de l'attention et le coût de la puissance de calcul. La capacité de traitement de 400 000 tokens n'est peut-être qu'un début, et il reste encore un long chemin à parcourir.