Великі моделі змагаються за здатність обробляти довгі тексти до 400 тисяч токенів, досліджуючи нові межі застосування ШІ.

robot
Генерація анотацій у процесі

Технологія довгих текстів стає новою ареною для великих моделей, 400 тисяч токенів можуть бути лише початком

Великі моделі швидко підвищують свою здатність обробляти довгі тексти, від 4000 токенів до 400000 токенів. Здатність до обробки довгих текстів, здається, стала новою "стандартною функцією" виробників великих моделей.

Незалежно від країни, багато провідних компаній з технологій великих моделей та дослідницьких установ зосереджують свої зусилля на розширенні довжини контексту як основному напрямі модернізації. Більшість із цих компаній є улюбленцями капітальних ринків і отримали значні інвестиції.

Компанії з великими моделями зосереджуються на технології довгих текстів з кількох причин:

  1. Вирішення проблеми впровадження застосунків. Короткий текст обмежує використання в багатьох сценаріях, таких як віртуальні персонажі, розробка ігор, аналіз у професійних сферах тощо.

  2. Прокладання шляху для майбутніх Agent та AI нативних застосунків. Ці застосунки потребують великої кількості історичної інформації та контексту для підтримки зв'язності та персоналізованого досвіду.

  3. Підвищення точності моделі. Довгі тексти можуть надати більше контексту та деталізованої інформації, зменшуючи неоднозначність та підвищуючи здатність до висновків.

  4. Сприяти впровадженню в промисловість. Технології довгих текстів сприяють застосуванню великих моделей у професійних сферах, таких як фінанси та право.

Однак технології обробки довгих текстів стикаються з дилемою "неможливого трикутника": важко поєднати довжину тексту, увагу та обчислювальну потужність. Основна причина цього полягає в тому, що більшість моделей ґрунтуються на структурі Transformer, а обчислювальна складність їхньої механізму самоуваги зростає квадратично з довжиною контексту.

В даний час існує три основних рішення:

  1. Використання зовнішніх інструментів для обробки довгих текстів
  2. Оптимізація обчислення механізму самостереження
  3. Використання методів оптимізації моделей

Хоча технології обробки довгих текстів все ще стикаються з викликами, компанії з великими моделями постійно досліджують оптимальний баланс для обробки достатньої кількості інформації, одночасно враховуючи обчислювальні витрати та вартість обчислень. Потужність обробки в 400 тисяч токенів може бути лише початком, в майбутньому нас чекає ще довгий шлях.

Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Нагородити
  • 9
  • Поділіться
Прокоментувати
0/400
BakedCatFanboyvip
· 07-04 13:16
Швидко дійшли до мільйона токенів.
Переглянути оригіналвідповісти на0
BoredApeResistancevip
· 07-03 00:20
Чому не можна просто безмежно випустити 400 тисяч токенів?
Переглянути оригіналвідповісти на0
ImpermanentPhobiavip
· 07-02 22:15
Замість того, щоб отримувати довгі тексти, краще отримати 40 тисяч картинок.
Переглянути оригіналвідповісти на0
ApeWithAPlanvip
· 07-02 09:43
приєднуйтесь ще рано, не поспішайте
Переглянути оригіналвідповісти на0
WhaleWatchervip
· 07-02 09:41
Короткого тексту вже недостатньо, щоб грати.
Переглянути оригіналвідповісти на0
FlashLoanLordvip
· 07-02 09:41
Капітальний бій — просто спостерігайте~
Переглянути оригіналвідповісти на0
TestnetScholarvip
· 07-02 09:27
Наступний інструмент для написання статей прийшов
Переглянути оригіналвідповісти на0
WenMoonvip
· 07-02 09:26
4000 до 400 тисяч, скоро 10 мільйонів!
Переглянути оригіналвідповісти на0
AirdropBuffetvip
· 07-02 09:22
Чим довше, тим більша шахта майнера.
Переглянути оригіналвідповісти на0
Дізнатися більше
  • Закріпити