A tecnologia de long text torna-se o novo campo de batalha dos grandes modelos, 400 mil tokens podem ser apenas o começo
Os grandes modelos estão a melhorar a sua capacidade de processar textos longos a uma velocidade impressionante, passando de 4000 tokens para 400000 tokens. A capacidade de textos longos parece ter-se tornado um novo "standard" para os fornecedores de grandes modelos.
Quer seja a nível nacional ou internacional, muitas empresas e instituições de investigação de topo em tecnologias de modelos de grande escala estão a focar na expansão do comprimento do contexto como uma direção de atualização prioritária. A maioria dessas empresas são queridas do mercado de capitais, tendo recebido um grande investimento.
As empresas de grandes modelos concentram-se na tecnologia de texto longo por várias razões:
Resolver a dificuldade de implementação de aplicações. Textos curtos limitam a aplicação em muitos cenários, como personagens virtuais, desenvolvimento de jogos, análise em áreas profissionais, etc.
Preparar o caminho para aplicações nativas de Agent e AI no futuro. Estas aplicações precisam de depender de uma grande quantidade de informações históricas e contexto para manter a coerência e a experiência personalizada.
Melhorar a precisão do modelo. Textos longos podem fornecer mais contexto e detalhes, reduzindo a ambiguidade e melhorando a capacidade de raciocínio.
Impulsionar a implementação da indústria. A tecnologia de texto longo ajuda na aplicação de grandes modelos em áreas profissionais como finanças e direito.
No entanto, a tecnologia de textos longos enfrenta o dilema do "triângulo impossível": é difícil equilibrar o comprimento do texto, a atenção e o poder computacional. A principal razão é que a maioria dos modelos é baseada na estrutura Transformer, cuja mecânica de autoatenção tem um aumento quadrático na carga computacional com o comprimento do contexto.
Atualmente, existem três soluções principais:
Usar ferramentas externas para ajudar a processar textos longos
Otimização do cálculo do mecanismo de autoatenção
Utilizar métodos de otimização de modelos
Embora a tecnologia de longos textos ainda enfrente desafios, as empresas de modelos grandes estão constantemente explorando o melhor ponto de equilíbrio para processar informações suficientes, ao mesmo tempo em que consideram os custos de cálculo de atenção e de computação. A capacidade de processamento de 400 mil tokens pode ser apenas um começo; há um longo caminho a percorrer no futuro.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
21 Curtidas
Recompensa
21
9
Compartilhar
Comentário
0/400
BakedCatFanboy
· 07-04 13:16
Estamos quase a chegar ao milhão de tokens.
Ver originalResponder0
BoredApeResistance
· 07-03 00:20
Por que não simplesmente fazer a troca de 400.000 tokens infinitamente?
Ver originalResponder0
ImpermanentPhobia
· 07-02 22:15
Conectar longos textos não é tão bom quanto conectar 40.000 imagens de ruído.
Ver originalResponder0
ApeWithAPlan
· 07-02 09:43
embarque ainda é cedo, não se apresse em fazer trades
Ver originalResponder0
WhaleWatcher
· 07-02 09:41
O texto curto já não é suficiente para brincar.
Ver originalResponder0
FlashLoanLord
· 07-02 09:41
A batalha de capital, é só assistir~
Ver originalResponder0
TestnetScholar
· 07-02 09:27
A próxima ferramenta para escrever artigos chegou.
Ver originalResponder0
WenMoon
· 07-02 09:26
4000 a 400 mil, já vai para 10 milhões
Ver originalResponder0
AirdropBuffet
· 07-02 09:22
Quanto maior o comprimento, maior a mina do mineiro.
Grandes modelos competem pela capacidade de textos longos de 400 mil tokens, explorando novas fronteiras de aplicações de IA.
A tecnologia de long text torna-se o novo campo de batalha dos grandes modelos, 400 mil tokens podem ser apenas o começo
Os grandes modelos estão a melhorar a sua capacidade de processar textos longos a uma velocidade impressionante, passando de 4000 tokens para 400000 tokens. A capacidade de textos longos parece ter-se tornado um novo "standard" para os fornecedores de grandes modelos.
Quer seja a nível nacional ou internacional, muitas empresas e instituições de investigação de topo em tecnologias de modelos de grande escala estão a focar na expansão do comprimento do contexto como uma direção de atualização prioritária. A maioria dessas empresas são queridas do mercado de capitais, tendo recebido um grande investimento.
As empresas de grandes modelos concentram-se na tecnologia de texto longo por várias razões:
Resolver a dificuldade de implementação de aplicações. Textos curtos limitam a aplicação em muitos cenários, como personagens virtuais, desenvolvimento de jogos, análise em áreas profissionais, etc.
Preparar o caminho para aplicações nativas de Agent e AI no futuro. Estas aplicações precisam de depender de uma grande quantidade de informações históricas e contexto para manter a coerência e a experiência personalizada.
Melhorar a precisão do modelo. Textos longos podem fornecer mais contexto e detalhes, reduzindo a ambiguidade e melhorando a capacidade de raciocínio.
Impulsionar a implementação da indústria. A tecnologia de texto longo ajuda na aplicação de grandes modelos em áreas profissionais como finanças e direito.
No entanto, a tecnologia de textos longos enfrenta o dilema do "triângulo impossível": é difícil equilibrar o comprimento do texto, a atenção e o poder computacional. A principal razão é que a maioria dos modelos é baseada na estrutura Transformer, cuja mecânica de autoatenção tem um aumento quadrático na carga computacional com o comprimento do contexto.
Atualmente, existem três soluções principais:
Embora a tecnologia de longos textos ainda enfrente desafios, as empresas de modelos grandes estão constantemente explorando o melhor ponto de equilíbrio para processar informações suficientes, ao mesmo tempo em que consideram os custos de cálculo de atenção e de computação. A capacidade de processamento de 400 mil tokens pode ser apenas um começo; há um longo caminho a percorrer no futuro.