Большие модели соревнуются в способности обрабатывать длинные тексты на 400 000 токенов, исследуя новые границы применения ИИ

2025-07-02 09:13:56

Генерация тезисов в процессе

Длинные текстовые технологии становятся новой ареной для больших моделей, 400000 токенов могут быть лишь началом

Большие модели стремительно увеличивают свою способность обрабатывать длинные тексты, развиваясь от 4000 токенов до 400000 токенов. Способность к работе с длинными текстами, похоже, стала новой "стандартной функцией" для производителей больших моделей.

Внутри страны и за рубежом множество ведущих компаний и исследовательских учреждений в области технологий больших моделей рассматривают увеличение длины контекста как ключевое направление обновления. Большинство из этих компаний являются любимцами капитальных рынков и получили значительные инвестиции.

У компаний больших моделей есть множество причин сосредотачиваться на технологии длинного текста:

Решение проблем с внедрением приложений. Короткий текст ограничивает применение во многих сценариях, таких как виртуальные персонажи, разработка игр, анализ в профессиональных областях и т.д.
Прокладывание пути для будущих приложений Agent и AI. Эти приложения должны полагаться на большое количество исторической информации и контекста, чтобы сохранять последовательность и индивидуализированный опыт.
Повышение точности модели. Длинные тексты могут предоставить больше контекста и подробностей, уменьшить неоднозначность и повысить способность к выводу.
Содействие внедрению отрасли. Технология длинных текстов способствует применению больших моделей в специализированных областях, таких как финансы и право.

Однако, технологии длинного текста сталкиваются с дилеммой "невозможного треугольника": длина текста, внимание и вычислительная мощность трудно совместить. Основная причина в том, что большинство моделей основаны на структуре Transformer, и объем вычислений их механизма самовнимания растет квадратично с увеличением длины контекста.

В настоящее время существует три основных решения:

Используйте внешние инструменты для обработки длинных текстов
Оптимизация вычисления механизма самовнимания
Использование методов оптимизации модели

Несмотря на то, что технологии длинных текстов все еще сталкиваются с вызовами, компании с большими моделями постоянно ищут оптимальный баланс, чтобы обрабатывать достаточное количество информации, одновременно учитывая вычисления внимания и затраты на вычислительную мощность. Способность обрабатывать 400 000 токенов может быть только началом, в будущем нас ждет еще более длинный путь.

TOKEN-0.7%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

21 Лайков