Model besar bersaing untuk kemampuan teks panjang 400.000 token, menjelajahi batasan baru aplikasi AI

robot
Pembuatan abstrak sedang berlangsung

Teknologi teks panjang menjadi medan perang baru model besar, 400.000 token mungkin baru permulaan

Model besar sedang meningkatkan kemampuan mereka untuk memproses teks panjang dengan kecepatan luar biasa, dari 4000 token menjadi 400.000 token. Kemampuan teks panjang tampaknya telah menjadi "standar baru" bagi penyedia model besar.

Baik di dalam maupun luar negeri, banyak perusahaan teknologi model besar terkemuka dan lembaga penelitian menjadikan perluasan panjang konteks sebagai arah peningkatan utama. Sebagian besar perusahaan ini adalah favorit di pasar modal dan telah mendapatkan banyak investasi.

Ada banyak alasan mengapa perusahaan model besar fokus pada teknologi teks panjang:

  1. Mengatasi kesulitan penerapan aplikasi. Teks pendek membatasi penerapan di banyak skenario, seperti karakter virtual, pengembangan game, analisis di bidang profesional, dan lain-lain.

  2. Mempersiapkan jalan bagi aplikasi Agent dan AI yang berasal dari masa depan. Aplikasi-aplikasi ini perlu bergantung pada banyak informasi historis dan konteks untuk menjaga konsistensi dan pengalaman yang dipersonalisasi.

  3. Meningkatkan akurasi model. Teks panjang dapat memberikan lebih banyak konteks dan informasi rinci, mengurangi ambiguitas, dan meningkatkan kemampuan penalaran.

  4. Mendorong penerapan industri. Teknologi teks panjang membantu model besar dalam penerapan di bidang profesional seperti keuangan dan hukum.

Namun, teknologi teks panjang menghadapi dilema "segitiga ketidakmungkinan": panjang teks, perhatian, dan daya komputasi sulit untuk diimbangi. Alasan utamanya adalah sebagian besar model didasarkan pada struktur Transformer, di mana jumlah komputasi mekanisme perhatian diri meningkat secara kuadrat seiring dengan panjang konteks.

Saat ini ada tiga solusi utama:

  1. Menggunakan alat eksternal untuk membantu memproses teks panjang
  2. Mengoptimalkan perhitungan mekanisme perhatian diri
  3. Menggunakan metode optimasi model

Meskipun teknologi teks panjang masih menghadapi tantangan, perusahaan model besar terus menjelajahi titik keseimbangan terbaik untuk menangani informasi yang cukup sambil mempertimbangkan biaya perhatian dan biaya komputasi. Kemampuan pemrosesan 400.000 token mungkin hanya merupakan awal, dan masih ada jalan yang lebih panjang di depan.

Lihat Asli
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Hadiah
  • 9
  • Bagikan
Komentar
0/400
BakedCatFanboyvip
· 07-04 13:16
Sudah mencapai jutaan token.
Lihat AsliBalas0
BoredApeResistancevip
· 07-03 00:20
Mengapa tidak langsung tak terbatas untuk mengolah 400.000 token?
Lihat AsliBalas0
ImpermanentPhobiavip
· 07-02 22:15
Menghubungkan teks panjang tidak sebaik menghubungkan empat puluh ribu gambar.
Lihat AsliBalas0
ApeWithAPlanvip
· 07-02 09:43
get on board masih awal, jangan terburu-buru
Lihat AsliBalas0
WhaleWatchervip
· 07-02 09:41
Teks pendek memang sudah tidak cukup lagi.
Lihat AsliBalas0
FlashLoanLordvip
· 07-02 09:41
Menonton pertarungan kapitalis sudah cukup~
Lihat AsliBalas0
TestnetScholarvip
· 07-02 09:27
Alat untuk menulis makalah berikutnya telah datang.
Lihat AsliBalas0
WenMoonvip
· 07-02 09:26
4000 hingga 400 ribu, segera 10 juta ya
Lihat AsliBalas0
AirdropBuffetvip
· 07-02 09:22
Semakin panjang, semakin besar lubang penambang.
Lihat AsliBalas0
Lihat Lebih Banyak
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)