Выпуск ChatGPT, GPT-4 и т. д. позволил нам увидеть очарование большой модели (LLM), сопровождающееся различными проблемами, с которыми она сталкивается.
Источник изображения: Создано Unbounded AI
Как сделать LLM лучше? Какие проблемы необходимо решить при наличии больших моделей? Это стало важной темой исследований в области искусственного интеллекта.
В этой статье ученый-компьютерщик Чип Хуен начинает с 10 аспектов и всесторонне излагает проблемы, с которыми сталкивается LLM. В частности, первые два аспекта касаются галлюцинаций и контекстного обучения, а несколько других аспектов включают, помимо прочего, мультимодальность, архитектуру, поиск альтернатив графическому процессору и т. д.
Исходный адрес:
Ниже приводится перевод оригинального текста.
1. Как уменьшить галлюцинации
Проблема галлюцинаций заключается в том, что текст, генерируемый LLM, подвижен и естественен, но не соответствует источнику содержания (внутренняя проблема) и/или неопределенен (внешняя проблема). Эта проблема широко распространена в LLM.
Поэтому очень важно облегчить галлюцинации и разработать индикаторы для измерения галлюцинаций, и этому вопросу уделяют внимание многие компании и учреждения. Чип Хьюен сказал, что на этом этапе есть много способов уменьшить галлюцинации, например, добавить больше контекста к подсказке, использовать цепочки мыслей или сделать ответ модели более кратким.
К материалам, на которые можно ссылаться, относятся:
2. Оптимизация длины и структуры контекста
Еще одним направлением исследования LLM является длина контекста, поскольку большая модель должна ссылаться на контекст при ответе на вопросы пользователей, и чем больше длина, которую можно обработать, тем полезнее она для LLM. Например, мы спросили ChatGPT: «Какой вьетнамский ресторан лучший?» Столкнувшись с этим вопросом, ChatGPT необходимо обратиться к контексту, чтобы выяснить, спрашивает ли пользователь о лучшем вьетнамском ресторане во Вьетнаме или о лучшем вьетнамском ресторане в США. Штаты.нет то же самое.
В этом подразделе Чип Хуен представляет несколько связанных статей.
Первый — «SITUATEDQA: Включение экстралингвистических контекстов в контроль качества», оба автора из Техасского университета в Остине. В документе представлен открытый набор данных QA SITUATEDQA, и заинтересованные читатели могут ознакомиться с ним, чтобы узнать больше.
Чип Хьюен заявил, что, поскольку модель учится на основе предоставленного контекста, этот процесс называется контекстным обучением.
Вторая статья называется «Ретри-дополненная генерация для наукоемких задач НЛП». В этой статье предлагается RAG (Ретри-дополненная генерация), которая может сочетать предварительно обученные языковые модели и внешние знания для реализации генеративных ответов на вопросы в открытой области и других знаний. Интенсивные задачи.
Процесс работы RGA разделен на две фазы: фазу фрагментирования (также известную как извлечение) и фазу запроса:
Основываясь на этом исследовании, многие люди думают, что чем длиннее контекст, тем больше информации вместит модель и тем лучше ее реакция. Чип Хуен считает, что это утверждение не совсем верно.
Сколько контекста может использовать модель и насколько эффективно модель использует контекст — это два совершенно разных вопроса. Что нам нужно сделать, так это параллельно повысить эффективность контекста обработки модели, одновременно увеличивая длину контекста модели. Например, в статье «Затерянные посередине: как языковые модели используют длинные контексты» описывается, как модель может лучше понимать информацию в начале и конце индекса, а не среднюю информацию.
3. Мультимодальный
Чип Хуен считает, что мультимодальность очень важна.
Во-первых, такие области, как здравоохранение, робототехника, электронная коммерция, розничная торговля, игры, развлечения и т. д., требуют мультимодальных данных. Например, для медицинского прогноза требуется текстовый контент, такой как записи врача и анкеты пациентов, а также информация об изображениях, такая как КТ, рентген и МРТ.
Во-вторых, мультимодальность обещает значительно улучшить производительность моделей: модели, которые могут понимать как текст, так и изображения, работают лучше, чем модели, которые могут понимать только текст. Однако текстовые модели настолько требовательны к тексту, что люди начинают беспокоиться, что скоро у нас закончатся данные из Интернета для обучения моделей. Как только текст исчерпан, нам нужно рассмотреть другие модальности данных.
Схема архитектуры фламинго
Что касается мультимодальности, вы можете обратиться к следующему содержанию:
4. Сделайте LLM быстрее и дешевле
GPT-3.5 впервые выпущен в конце ноября 2022 года, и многие обеспокоены высокой стоимостью использования. Однако всего за полгода сообщество нашело модель, близкую к GPT-3.5 по производительности, а требуемый объем памяти составляет всего 2% от GPT-3.5.
Чип Хуен сказал, что если создать что-то достаточно хорошее, люди скоро найдут способ сделать это быстро и дешево.
Ниже приводится сравнение производительности Guanaco 7B с такими моделями, как ChatGPT и GPT-4. Но мы должны подчеркнуть, что оценивать LLM очень сложно.
Затем Чип Хьюен перечислил методы оптимизации и сжатия модели:
Вышеупомянутые четыре метода по-прежнему популярны, например, обучение альпаки с помощью дистилляции знаний и QLoRA, сочетающее разложение низкого ранга и квантование.
5. Разработайте новую архитектуру модели
С момента выпуска AlexNet в 2012 году многие архитектуры, включая LSTM и seq2seq, стали популярными, а затем устарели. В отличие от этого, Трансформер невероятно липкий. Он существует с 2017 года и до сих пор широко используется. Как долго эта архитектура будет популярна, оценить сложно.
Однако разработать совершенно новую архитектуру, которая превзойдет Transformer, непросто. За последние 6 лет исследователи внесли множество оптимизаций в Transformer. Помимо архитектуры модели, сюда также входит оптимизация на аппаратном уровне.
Лаборатория под руководством американского ученого-компьютерщика Криса Ре провела множество исследований в области S4 в 2021 году. Для получения дополнительной информации обратитесь к статье «Эффективное моделирование длинных последовательностей с помощью структурированных пространств состояний». Кроме того, лаборатория Криса Ре вложила значительные средства в разработку новых архитектур, а недавно они заключили партнерство со стартапом Together для разработки архитектуры Monarch Mixer.
Их ключевая идея заключается в том, что для существующей архитектуры Transformer сложность внимания квадратична длине последовательности, тогда как сложность MLP квадратична размерности модели, и архитектура с низкой сложностью будет более эффективной.
6. Разработка альтернативных графических процессоров
Графические процессоры доминировали в глубоком обучении с момента выпуска AlexNet в 2012 году. Фактически, одной из общепризнанных причин популярности AlexNet является то, что это была первая статья, успешно обучающая нейронную сеть с использованием графических процессоров. До появления графических процессоров, если вы хотели обучить модель размером с AlexNet, вам приходилось использовать тысячи процессоров, а несколько графических процессоров могли это сделать.
За последнее десятилетие как крупные корпорации, так и стартапы пытались создать новое оборудование для искусственного интеллекта. Наиболее представительные из них включают, помимо прочего, TPU от Google, IPU от Graphcore и компанию Cerebras, производящую чипы искусственного интеллекта. Кроме того, стартап по производству ИИ-чипов SambaNova привлек более 1 миллиарда долларов на разработку новых ИИ-чипов.
Еще одно интересное направление — фотонные чипы, которые используют фотоны для перемещения данных, обеспечивая более быстрые и эффективные вычисления. Несколько стартапов в этой сфере собрали сотни миллионов долларов, в том числе Lightmatter (270 миллионов долларов), Ayar Labs (220 миллионов долларов), Lightelligence (более 200 миллионов долларов) и Luminous Compute (115 миллионов долларов).
Ниже приводится временная шкала развития трех основных подходов к вычислениям фотонной матрицы, взятая из статьи «Умножение фотонной матрицы освещает фотонный ускоритель и не только». Этими тремя методами являются плоское преобразование света (PLC), интерферометр Маха-Цендера (MZI) и мультиплексирование с разделением по длине волны (WDM).
7. Сделайте агентов более удобными
Агенты — это LLM, которые могут выполнять такие действия, как просмотр страниц в Интернете, отправка электронных писем, бронирование номера и т. д. По сравнению с другими направлениями исследований, рассматриваемыми в данной статье, данное направление появилось относительно поздно и является для всех совершенно новым.
Именно из-за новизны и огромного потенциала у всех возникает безумная одержимость интеллектуальными агентами. Auto-GPT в настоящее время является 25-м по популярности проектом на GitHub. ГПТ-Инжиниринг — еще один очень популярный проект.
Хотя это ожидаемо и интересно, остается сомнительным, будет ли LLM достаточно надежным и эффективным, чтобы получить право действовать.
Однако уже появился вариант применения агентов для социальных исследований.Некоторое время назад Стэнфорд открыл исходный код «виртуального города» Смоллвиль.В городке жили 25 ИИ-агентов.Они имеют работу,могут сплетничать и могут организовывать социальные , завести новых друзей и даже устроить вечеринку в честь Дня святого Валентина — каждый горожанин обладает уникальной личностью и предысторией.
Для получения более подробной информации, пожалуйста, обратитесь к следующим документам.
Бумажный адрес:
Вероятно, самым известным стартапом в этой сфере является Adept, основанный двумя соавторами Transformer и бывшим вице-президентом OpenAI. На сегодняшний день он собрал почти 500 миллионов долларов. В прошлом году они провели демонстрацию, показывающую, как их агент может просматривать Интернет и добавлять новую учетную запись в Salesforce.
, продолжительность 03:30
8. Улучшенное обучение на основе человеческих предпочтений
RLHF означает «Обучение с подкреплением на основе человеческих предпочтений». Было бы неудивительно, если бы люди нашли другие способы обучения LLM, ведь RLHF еще предстоит решить множество проблем. Чип Хуен перечислил следующие 3 пункта.
**Как математически представить человеческие предпочтения? **
В настоящее время человеческие предпочтения определяются путем сравнения: люди-аннотаторы определяют, лучше ли ответ А, чем ответ Б, но не учитывают, насколько ответ А лучше, чем ответ Б.
**Каковы человеческие предпочтения? **
Anthropic измеряет качество реакции своих моделей по трем осям: полезность, честность и невиновность.
Бумажный адрес:
DeepMind также пытается генерировать ответы, удовлетворяющие большинство. См. этот документ ниже.
Бумажный адрес:
Но чтобы внести ясность: нужен ли нам ИИ, который сможет занять определенную позицию, или универсальный ИИ, который избегает любых потенциально спорных тем?
**Чьи предпочтения являются предпочтениями «народа»? **
Учитывая различия в культуре, религии и т. д., существует множество проблем в получении обучающих данных, которые адекватно отражают всех потенциальных пользователей.
Например, в данных OpenAI InstructGPT маркировщиками являются в основном филиппинцы и бангладешцы, что может вызвать некоторые отклонения из-за географических различий.
Источник:
Исследовательское сообщество также работает над этим, но предвзятость данных сохраняется. Например, в демографическом распределении набора данных OpenAssistant 201 из 222 респондентов (90,5%) были мужчинами.
9. Повышение эффективности интерфейса чата
Со времен ChatGPT было много дискуссий о том, подходит ли чат для различных задач. Например, эти обсуждения:
Однако эти дискуссии не новы. Многие страны, особенно в Азии, уже около десяти лет используют чат в качестве интерфейса для суперприложений.
В 2016 году, когда многие приложения считались мертвыми, а будущее — за чат-ботами, дискуссия снова стала напряженной:
Чип Хуен рассказал, что ему очень нравится интерфейс чата по следующим причинам:
Однако Чип Хуен считает, что интерфейс чата в некоторых областях нуждается в улучшении. У него есть следующие предложения
В настоящее время считается, что за раунд можно отправить только одно сообщение. Но в реальной жизни люди пишут не так. Обычно для реализации индивидуальной идеи требуется несколько фрагментов информации, поскольку в процесс необходимо вставлять разные данные (например, изображения, местоположения, ссылки), а пользователь может что-то пропустить в предыдущей информации или просто не знать. хочу включить все. Напишите это длинным абзацем.
В области мультимодальных приложений большая часть усилий тратится на создание лучших моделей и мало тратится на создание лучших интерфейсов. В случае с чат-ботом NeVA от Nvidia, возможно, есть возможности для улучшения пользовательского опыта.
адрес:
Линус Ли хорошо формулирует это в своем докладе «Интерфейсы, создаваемые искусственным интеллектом за пределами чата». Например, если вы хотите задать вопрос о столбце диаграммы, над которой вы работаете, у вас должна быть возможность просто указать на этот столбец и задать вопрос.
Адрес видео:
Стоит подумать о том, как редактирование или удаление вводимых пользователем данных может изменить ход разговора с чат-ботом.
10. Создание программы LLM для неанглийских языков
Текущие LLM для английского как первого языка плохо масштабируются для других языков с точки зрения производительности, задержки и скорости. Связанный контент можно прочитать в следующих статьях:
Бумажный адрес:
Адрес статьи:
Чип Хуен сказал, что несколько первых читателей этой статьи сказали ему, что, по их мнению, это направление не следует включать по двум причинам.
Бумажный адрес:
Бумажный адрес:
Влияние инструментов искусственного интеллекта, таких как машинный перевод и чат-боты, на изучение языка неясно. Помогают ли они людям быстрее изучать новые языки или полностью устраняют необходимость изучения новых языков, неизвестно.
Подведем итог
Проблемы, упомянутые в этой статье, также имеют разные уровни сложности, например, последняя проблема: если вы найдете достаточно ресурсов и времени, можно построить LLM для неанглийских языков.
Одна из первых проблем — уменьшить галлюцинации, что будет намного сложнее, потому что галлюцинации — это просто LLM, выполняющий вероятностные действия.
Четвертая проблема — сделать LLM быстрее и дешевле, и она не будет полностью решена. В этой области достигнут некоторый прогресс, и в будущем прогресс будет еще больше, но мы никогда не достигнем совершенства.
Пятая и шестая проблемы — это новые архитектуры и новое оборудование, что очень сложно, но со временем неизбежно. Из-за симбиотических отношений между архитектурой и оборудованием, когда новые архитектуры необходимо оптимизировать для оборудования общего назначения, а оборудование должно поддерживать архитектуры общего назначения, эта проблема потенциально может быть решена одной и той же компанией.
Есть также проблемы, которые невозможно решить только с помощью технических знаний. Например, восьмая проблема улучшения методов обучения на основе человеческих предпочтений может быть скорее политическим вопросом, чем техническим. Говоря о девятом вопросе о повышении эффективности интерфейса, это больше похоже на проблему пользовательского опыта, и для совместного решения этой проблемы необходимо больше людей с нетехническим образованием.
Если вы хотите взглянуть на эти проблемы под другим углом, Чип Хьюен рекомендует прочитать следующую статью.
Бумажный адрес: