Cuộc cạnh tranh mô hình lớn với khả năng xử lý văn bản dài 400.000 token: Khám phá ranh giới mới của ứng dụng AI

robot
Đang tạo bản tóm tắt

Công nghệ văn bản dài trở thành chiến trường mới của mô hình lớn, 400.000 token có thể chỉ là bắt đầu

Mô hình lớn đang nâng cao khả năng xử lý văn bản dài với tốc độ đáng kinh ngạc, từ 4000 token phát triển lên 400000 token. Khả năng văn bản dài dường như đã trở thành "tiêu chuẩn" mới của các nhà sản xuất mô hình lớn.

Dù trong nước hay quốc tế, nhiều công ty công nghệ mô hình lớn hàng đầu và các viện nghiên cứu đã coi việc mở rộng chiều dài ngữ cảnh là hướng nâng cấp trọng điểm. Những công ty này chủ yếu là những đứa con cưng của thị trường vốn, đã nhận được một lượng lớn đầu tư.

Các công ty mô hình lớn tập trung vào công nghệ văn bản dài có nhiều lý do khác nhau:

  1. Giải quyết khó khăn trong việc áp dụng ứng dụng. Văn bản ngắn hạn đã hạn chế việc áp dụng trong nhiều tình huống, chẳng hạn như nhân vật ảo, phát triển trò chơi, phân tích lĩnh vực chuyên môn, v.v.

  2. Đặt nền tảng cho các ứng dụng Agent và AI gốc trong tương lai. Những ứng dụng này cần dựa vào một lượng lớn thông tin lịch sử và ngữ cảnh để duy trì tính liên tục và trải nghiệm cá nhân hóa.

  3. Cải thiện độ chính xác của mô hình. Văn bản dài có thể cung cấp nhiều ngữ cảnh và thông tin chi tiết hơn, giảm thiểu sự mơ hồ và nâng cao khả năng suy luận.

  4. Thúc đẩy ngành công nghiệp hiện thực hóa. Công nghệ văn bản dài giúp các mô hình lớn được áp dụng trong các lĩnh vực chuyên môn như tài chính, pháp lý.

Tuy nhiên, công nghệ văn bản dài đang phải đối mặt với tình huống "tam giác không thể": độ dài văn bản, sự chú ý và sức mạnh tính toán khó có thể cân bằng. Nguyên nhân chính là hầu hết các mô hình dựa trên cấu trúc Transformer, trong đó lượng tính toán của cơ chế tự chú ý tăng theo cấp số nhân với độ dài ngữ cảnh.

Hiện tại có ba giải pháp chính:

  1. Sử dụng các công cụ bên ngoài để hỗ trợ xử lý văn bản dài
  2. Tối ưu hóa tính toán cơ chế chú ý tự động
  3. Sử dụng phương pháp tối ưu hóa mô hình

Mặc dù công nghệ văn bản dài vẫn đối mặt với những thách thức, nhưng các công ty mô hình lớn đang không ngừng khám phá điểm cân bằng tốt nhất để xử lý đủ thông tin trong khi vẫn cân nhắc đến chi phí tính toán và sức mạnh xử lý. Khả năng xử lý 400.000 token có thể chỉ là một khởi đầu, trong tương lai còn một chặng đường dài hơn để đi.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 9
  • Chia sẻ
Bình luận
0/400
BakedCatFanboyvip
· 07-04 13:16
Đã tiến vào hàng triệu token rồi.
Xem bản gốcTrả lời0
BoredApeResistancevip
· 07-03 00:20
Sao không trực tiếp vô hạn 40 vạn token?
Xem bản gốcTrả lời0
ImpermanentPhobiavip
· 07-02 22:15
Kết nối văn bản dài không bằng kết nối bốn mươi ngàn bức ảnh.
Xem bản gốcTrả lời0
ApeWithAPlanvip
· 07-02 09:43
lên xe còn sớm Đừng vội vàng mà lướt
Xem bản gốcTrả lời0
WhaleWatchervip
· 07-02 09:41
Văn bản ngắn thực sự không đủ để chơi nữa.
Xem bản gốcTrả lời0
FlashLoanLordvip
· 07-02 09:41
Xem kịch trong cuộc chiến vốn.
Xem bản gốcTrả lời0
TestnetScholarvip
· 07-02 09:27
Công cụ viết luận văn tiếp theo đã đến
Xem bản gốcTrả lời0
WenMoonvip
· 07-02 09:26
4000 đến 40 triệu, sắp 1000 triệu rồi
Xem bản gốcTrả lời0
AirdropBuffetvip
· 07-02 09:22
Chiều dài càng dài thì hố khai thác càng lớn
Xem bản gốcTrả lời0
Xem thêm
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)