Model besar bersaing untuk kemampuan teks panjang 400.000 token, menjelajahi batasan baru aplikasi AI

2025-07-02 09:13:56

Pembuatan abstrak sedang berlangsung

Teknologi teks panjang menjadi medan perang baru model besar, 400.000 token mungkin baru permulaan

Model besar sedang meningkatkan kemampuan mereka untuk memproses teks panjang dengan kecepatan luar biasa, dari 4000 token menjadi 400.000 token. Kemampuan teks panjang tampaknya telah menjadi "standar baru" bagi penyedia model besar.

Baik di dalam maupun luar negeri, banyak perusahaan teknologi model besar terkemuka dan lembaga penelitian menjadikan perluasan panjang konteks sebagai arah peningkatan utama. Sebagian besar perusahaan ini adalah favorit di pasar modal dan telah mendapatkan banyak investasi.

Ada banyak alasan mengapa perusahaan model besar fokus pada teknologi teks panjang:

Mengatasi kesulitan penerapan aplikasi. Teks pendek membatasi penerapan di banyak skenario, seperti karakter virtual, pengembangan game, analisis di bidang profesional, dan lain-lain.
Mempersiapkan jalan bagi aplikasi Agent dan AI yang berasal dari masa depan. Aplikasi-aplikasi ini perlu bergantung pada banyak informasi historis dan konteks untuk menjaga konsistensi dan pengalaman yang dipersonalisasi.
Meningkatkan akurasi model. Teks panjang dapat memberikan lebih banyak konteks dan informasi rinci, mengurangi ambiguitas, dan meningkatkan kemampuan penalaran.
Mendorong penerapan industri. Teknologi teks panjang membantu model besar dalam penerapan di bidang profesional seperti keuangan dan hukum.

Namun, teknologi teks panjang menghadapi dilema "segitiga ketidakmungkinan": panjang teks, perhatian, dan daya komputasi sulit untuk diimbangi. Alasan utamanya adalah sebagian besar model didasarkan pada struktur Transformer, di mana jumlah komputasi mekanisme perhatian diri meningkat secara kuadrat seiring dengan panjang konteks.

Saat ini ada tiga solusi utama:

Menggunakan alat eksternal untuk membantu memproses teks panjang
Mengoptimalkan perhitungan mekanisme perhatian diri
Menggunakan metode optimasi model

Meskipun teknologi teks panjang masih menghadapi tantangan, perusahaan model besar terus menjelajahi titik keseimbangan terbaik untuk menangani informasi yang cukup sambil mempertimbangkan biaya perhatian dan biaya komputasi. Kemampuan pemrosesan 400.000 token mungkin hanya merupakan awal, dan masih ada jalan yang lebih panjang di depan.

TOKEN-3.14%

Lihat Asli

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

21 Suka