🎉 Gate xStocks 交易开启啦,现货、合约、Alpha齐上线!
📝 在Gate广场发帖,晒出你的交易体验或精彩截图,瓜分$1,000大奖池!
🎁 广场优质创作者5名,每人独享$100合约体验券!
🎉 帖文同步分享到X(推特),浏览量前十再得$50奖励!
参与方式:
1️⃣ 关注 @Gate广场_Official
2️⃣ 带 #Gate xStocks 交易体验# ,原创发帖(不少于20字,仅用活动标签)
3️⃣ 若分享到推特,请将链接提交表单:https://www.gate.com/questionnaire/6854
注:表单可多次提交,发布更多帖文可提升获奖机会!
📅 7月3日16:00—7月9日24:00(UTC+8)
详情:https://www.gate.com/announcements/article/45926
每一条体验,都有机会赢取大奖!快在Gate广场show出你的操作吧!
大模型竞逐40万token长文本能力 探索AI应用新边界
长文本技术成为大模型新战场,40万token或仅是开始
大模型正以惊人的速度提升其处理长文本的能力,从4000 token发展到40万token。长文本能力似乎已成为大模型厂商的新"标配"。
无论国内外,众多顶级大模型技术公司和研究机构都将拓展上下文长度作为重点升级方向。这些公司大多是资本市场的宠儿,获得了大量投资。
大模型公司聚焦长文本技术有多方面原因:
解决应用落地困境。短文本限制了许多场景的应用,如虚拟角色、游戏开发、专业领域分析等。
为未来Agent和AI原生应用铺路。这些应用需要依靠大量历史信息和上下文来保持连贯性和个性化体验。
提高模型的准确性。长文本可提供更多上下文和细节信息,减少歧义,提升推理能力。
推动产业落地。长文本技术有助于大模型在金融、法律等专业领域的应用。
然而,长文本技术面临"不可能三角"困境:文本长度、注意力和算力难以兼顾。主要原因是大多数模型基于Transformer结构,其自注意力机制计算量随上下文长度呈平方级增长。
目前主要有三种解决方案:
虽然长文本技术仍面临挑战,但大模型公司正在不断探索最佳平衡点,以处理足够信息的同时兼顾注意力计算和算力成本。40万token的处理能力可能只是一个开始,未来还有更长的路要走。