Teknologi teks panjang menjadi medan perang baru model besar, 400.000 token mungkin baru permulaan
Model besar sedang meningkatkan kemampuan mereka untuk memproses teks panjang dengan kecepatan luar biasa, dari 4000 token menjadi 400.000 token. Kemampuan teks panjang tampaknya telah menjadi "standar baru" bagi penyedia model besar.
Baik di dalam maupun luar negeri, banyak perusahaan teknologi model besar terkemuka dan lembaga penelitian menjadikan perluasan panjang konteks sebagai arah peningkatan utama. Sebagian besar perusahaan ini adalah favorit di pasar modal dan telah mendapatkan banyak investasi.
Ada banyak alasan mengapa perusahaan model besar fokus pada teknologi teks panjang:
Mengatasi kesulitan penerapan aplikasi. Teks pendek membatasi penerapan di banyak skenario, seperti karakter virtual, pengembangan game, analisis di bidang profesional, dan lain-lain.
Mempersiapkan jalan bagi aplikasi Agent dan AI yang berasal dari masa depan. Aplikasi-aplikasi ini perlu bergantung pada banyak informasi historis dan konteks untuk menjaga konsistensi dan pengalaman yang dipersonalisasi.
Meningkatkan akurasi model. Teks panjang dapat memberikan lebih banyak konteks dan informasi rinci, mengurangi ambiguitas, dan meningkatkan kemampuan penalaran.
Mendorong penerapan industri. Teknologi teks panjang membantu model besar dalam penerapan di bidang profesional seperti keuangan dan hukum.
Namun, teknologi teks panjang menghadapi dilema "segitiga ketidakmungkinan": panjang teks, perhatian, dan daya komputasi sulit untuk diimbangi. Alasan utamanya adalah sebagian besar model didasarkan pada struktur Transformer, di mana jumlah komputasi mekanisme perhatian diri meningkat secara kuadrat seiring dengan panjang konteks.
Saat ini ada tiga solusi utama:
Menggunakan alat eksternal untuk membantu memproses teks panjang
Mengoptimalkan perhitungan mekanisme perhatian diri
Menggunakan metode optimasi model
Meskipun teknologi teks panjang masih menghadapi tantangan, perusahaan model besar terus menjelajahi titik keseimbangan terbaik untuk menangani informasi yang cukup sambil mempertimbangkan biaya perhatian dan biaya komputasi. Kemampuan pemrosesan 400.000 token mungkin hanya merupakan awal, dan masih ada jalan yang lebih panjang di depan.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
21 Suka
Hadiah
21
9
Bagikan
Komentar
0/400
BakedCatFanboy
· 07-04 13:16
Sudah mencapai jutaan token.
Lihat AsliBalas0
BoredApeResistance
· 07-03 00:20
Mengapa tidak langsung tak terbatas untuk mengolah 400.000 token?
Lihat AsliBalas0
ImpermanentPhobia
· 07-02 22:15
Menghubungkan teks panjang tidak sebaik menghubungkan empat puluh ribu gambar.
Lihat AsliBalas0
ApeWithAPlan
· 07-02 09:43
get on board masih awal, jangan terburu-buru
Lihat AsliBalas0
WhaleWatcher
· 07-02 09:41
Teks pendek memang sudah tidak cukup lagi.
Lihat AsliBalas0
FlashLoanLord
· 07-02 09:41
Menonton pertarungan kapitalis sudah cukup~
Lihat AsliBalas0
TestnetScholar
· 07-02 09:27
Alat untuk menulis makalah berikutnya telah datang.
Model besar bersaing untuk kemampuan teks panjang 400.000 token, menjelajahi batasan baru aplikasi AI
Teknologi teks panjang menjadi medan perang baru model besar, 400.000 token mungkin baru permulaan
Model besar sedang meningkatkan kemampuan mereka untuk memproses teks panjang dengan kecepatan luar biasa, dari 4000 token menjadi 400.000 token. Kemampuan teks panjang tampaknya telah menjadi "standar baru" bagi penyedia model besar.
Baik di dalam maupun luar negeri, banyak perusahaan teknologi model besar terkemuka dan lembaga penelitian menjadikan perluasan panjang konteks sebagai arah peningkatan utama. Sebagian besar perusahaan ini adalah favorit di pasar modal dan telah mendapatkan banyak investasi.
Ada banyak alasan mengapa perusahaan model besar fokus pada teknologi teks panjang:
Mengatasi kesulitan penerapan aplikasi. Teks pendek membatasi penerapan di banyak skenario, seperti karakter virtual, pengembangan game, analisis di bidang profesional, dan lain-lain.
Mempersiapkan jalan bagi aplikasi Agent dan AI yang berasal dari masa depan. Aplikasi-aplikasi ini perlu bergantung pada banyak informasi historis dan konteks untuk menjaga konsistensi dan pengalaman yang dipersonalisasi.
Meningkatkan akurasi model. Teks panjang dapat memberikan lebih banyak konteks dan informasi rinci, mengurangi ambiguitas, dan meningkatkan kemampuan penalaran.
Mendorong penerapan industri. Teknologi teks panjang membantu model besar dalam penerapan di bidang profesional seperti keuangan dan hukum.
Namun, teknologi teks panjang menghadapi dilema "segitiga ketidakmungkinan": panjang teks, perhatian, dan daya komputasi sulit untuk diimbangi. Alasan utamanya adalah sebagian besar model didasarkan pada struktur Transformer, di mana jumlah komputasi mekanisme perhatian diri meningkat secara kuadrat seiring dengan panjang konteks.
Saat ini ada tiga solusi utama:
Meskipun teknologi teks panjang masih menghadapi tantangan, perusahaan model besar terus menjelajahi titik keseimbangan terbaik untuk menangani informasi yang cukup sambil mempertimbangkan biaya perhatian dan biaya komputasi. Kemampuan pemrosesan 400.000 token mungkin hanya merupakan awal, dan masih ada jalan yang lebih panjang di depan.