Великі моделі змагаються за здатність обробляти довгі тексти до 400 тисяч токенів, досліджуючи нові межі застосування ШІ.

2025-07-02 09:13:56

Генерація анотацій у процесі

Технологія довгих текстів стає новою ареною для великих моделей, 400 тисяч токенів можуть бути лише початком

Великі моделі швидко підвищують свою здатність обробляти довгі тексти, від 4000 токенів до 400000 токенів. Здатність до обробки довгих текстів, здається, стала новою "стандартною функцією" виробників великих моделей.

Незалежно від країни, багато провідних компаній з технологій великих моделей та дослідницьких установ зосереджують свої зусилля на розширенні довжини контексту як основному напрямі модернізації. Більшість із цих компаній є улюбленцями капітальних ринків і отримали значні інвестиції.

Компанії з великими моделями зосереджуються на технології довгих текстів з кількох причин:

Вирішення проблеми впровадження застосунків. Короткий текст обмежує використання в багатьох сценаріях, таких як віртуальні персонажі, розробка ігор, аналіз у професійних сферах тощо.
Прокладання шляху для майбутніх Agent та AI нативних застосунків. Ці застосунки потребують великої кількості історичної інформації та контексту для підтримки зв'язності та персоналізованого досвіду.
Підвищення точності моделі. Довгі тексти можуть надати більше контексту та деталізованої інформації, зменшуючи неоднозначність та підвищуючи здатність до висновків.
Сприяти впровадженню в промисловість. Технології довгих текстів сприяють застосуванню великих моделей у професійних сферах, таких як фінанси та право.

Однак технології обробки довгих текстів стикаються з дилемою "неможливого трикутника": важко поєднати довжину тексту, увагу та обчислювальну потужність. Основна причина цього полягає в тому, що більшість моделей ґрунтуються на структурі Transformer, а обчислювальна складність їхньої механізму самоуваги зростає квадратично з довжиною контексту.

В даний час існує три основних рішення:

Використання зовнішніх інструментів для обробки довгих текстів
Оптимізація обчислення механізму самостереження
Використання методів оптимізації моделей

Хоча технології обробки довгих текстів все ще стикаються з викликами, компанії з великими моделями постійно досліджують оптимальний баланс для обробки достатньої кількості інформації, одночасно враховуючи обчислювальні витрати та вартість обчислень. Потужність обробки в 400 тисяч токенів може бути лише початком, в майбутньому нас чекає ще довгий шлях.

TOKEN7.96%

Переглянути оригінал

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

21 лайків