大模型竞逐40万token长文本能力探索AI应用新边界

2025-07-02 09:13:56

摘要生成中

长文本技术成为大模型新战场，40万token或仅是开始

大模型正以惊人的速度提升其处理长文本的能力，从4000 token发展到40万token。长文本能力似乎已成为大模型厂商的新"标配"。

无论国内外，众多顶级大模型技术公司和研究机构都将拓展上下文长度作为重点升级方向。这些公司大多是资本市场的宠儿，获得了大量投资。

大模型公司聚焦长文本技术有多方面原因:

然而，长文本技术面临"不可能三角"困境:文本长度、注意力和算力难以兼顾。主要原因是大多数模型基于Transformer结构,其自注意力机制计算量随上下文长度呈平方级增长。

目前主要有三种解决方案:

虽然长文本技术仍面临挑战，但大模型公司正在不断探索最佳平衡点，以处理足够信息的同时兼顾注意力计算和算力成本。40万token的处理能力可能只是一个开始，未来还有更长的路要走。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

21人点赞了这条动态

0/400

烤猫铁粉

· 07-04 13:16

快进到百万token了都

无聊猿反抗军

· 07-03 00:20

炒40万token咋不直接无限呢

无常损失恐惧症

· 07-02 22:15

接长文不如接四万张润去图片

ApeWithAPlan

· 07-02 09:43

入场还早别急着梭

巨鲸观察员

· 07-02 09:41

短文本真的已经不够玩了

闪电佬

· 07-02 09:41

资本大战看戏就好~

测试网学者

· 07-02 09:27

下一个写论文利器来了

Wen_Moon

· 07-02 09:26

4000到40万，马上1000万咯

空投自助餐

· 07-02 09:22

长度越长矿工坑越大