Недавнее развитие в области ИИ некоторыми воспринимается как четвертая промышленная революция. Появление больших моделей значительно повысило эффективность в различных отраслях; компания Boston Consulting считает, что GPT увеличил рабочую эффективность в США примерно на 20%. В то же время универсальность, обеспечиваемая большими моделями, рассматривается как новая парадигма проектирования программного обеспечения: раньше проектирование программного обеспечения заключалось в написании точного кода, теперь же проектирование программного обеспечения включает в себя интеграцию более универсальных больших моделей в программное обеспечение, что позволяет создавать более эффективные приложения и поддерживать более широкий спектр входных и выходных данных. Технология глубокого обучения действительно принесла четвертое процветание в индустрию ИИ, и эта волна также охватила индустрию криптовалют.
В этом отчете будет подробно рассмотрена история развития отрасли ИИ, классификация технологий, а также влияние изобретения технологий глубокого обучения на отрасль. Затем будет проведен глубокий анализ цепочки поставок, включая GPU, облачные вычисления, источники данных, устройства на краю и их текущее состояние и тенденции. После этого мы подробно обсудим суть отношений между отраслями Crypto и ИИ, а также проанализируем структуру цепочки поставок, связанной с Crypto.
AI-индустрия начала развиваться с 50-х годов 20 века. Для реализации видения искусственного интеллекта академические и промышленные круги в разные эпохи и в условиях различных научных дисциплин разработали множество подходов к реализации искусственного интеллекта.
Основным термином, используемым в современных технологиях искусственного интеллекта, является "машинное обучение". Идея этой технологии заключается в том, чтобы позволить машинам повторно итеративно обрабатывать данные для улучшения производительности системы. Основные шаги включают передачу данных алгоритму, обучение модели с использованием этих данных, тестирование и развертывание модели, а также использование модели для выполнения автоматизированных задач прогнозирования.
В настоящее время в машинном обучении выделяются три основных направления: соединительный подход, символический подход и бихевиоризм, которые имитируют человеческую нервную систему, мышление и поведение.
В настоящее время соединительный подход, представленный нейронными сетями, занимает лидирующие позиции (, также известный как глубокое обучение ). Основная причина заключается в том, что такая архитектура имеет один входной слой, один выходной слой и несколько скрытых слоев. Как только количество слоев и нейронов (, а также их параметры ) становятся достаточно велики, возникает достаточно возможностей для подгонки сложных универсальных задач. Путем ввода данных можно постоянно настраивать параметры нейронов, и в конечном итоге, пройдя через множество данных, этот нейрон достигнет оптимального состояния (, что и называется "сила в чудесах", и это также объясняет происхождение слова "глубокий" — достаточное количество слоев и нейронов.
Например, это можно просто понять как создание функции, где при входном значении X=2, Y=3; при X=3, Y=5. Если мы хотим, чтобы эта функция работала для всех X, нам нужно постоянно добавлять степень этой функции и ее параметры. Например, сейчас я могу построить функцию, удовлетворяющую этому условию: Y = 2X - 1. Но если есть данные X=2, Y=11, нужно будет реконструировать функцию, подходящую для этих трех точек данных. Используя GPU для брутфорса, обнаруживаем, что Y = X2 - 3X + 5 достаточно хорошо подходит, но не обязательно должно полностью совпадать с данными, достаточно соблюдать баланс и выдавать примерно аналогичные результаты. Здесь X2, X и X0 представляют разные нейроны, а 1, -3, 5 — это их параметры.
В это время, если мы вводим большое количество данных в нейронную сеть, мы можем увеличить количество нейронов и итерационные параметры, чтобы подогнать новые данные. Таким образом, мы сможем подогнать все данные.
На основе технологий глубокого обучения, основанных на нейронных сетях, также было несколько итераций и эволюций технологий, такие как самые ранние нейронные сети, сети прямого распространения, RNN, CNN, GAN, которые в конечном итоге эволюционировали в современные большие модели, такие как GPT, использующие технологию Transformer. Технология Transformer является лишь одним из направлений эволюции нейронных сетей, добавляя преобразователь ) Transformer (, который используется для кодирования данных всех модальностей ), таких как аудио, видео, изображения и т.д. ( в соответствующие числовые значения для представления. Затем эти данные вводятся в нейронную сеть, что позволяет нейронной сети подстраиваться под любые типы данных, что и реализует мультимодальность.
! [Новичок в популярной науке丨AI x Crypto: от нуля до пика])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Развитие ИИ прошло через три технологические волны. Первая волна пришлась на 60-е годы 20 века, через десять лет после появления технологий ИИ. Эта волна была вызвана развитием символистских технологий, которые решали проблемы общего понимания естественного языка и взаимодействия человека с машиной. В это же время было создано экспертное системное решение, завершенное в Стэнфорде, известное как экспертная система DENRAL. Эта система обладает очень сильными знаниями в области химии и делает выводы на основе вопросов, чтобы генерировать ответы, аналогичные тем, что дает химический эксперт. Эта экспертная система по химии может рассматриваться как комбинация химической базы знаний и системы вывода.
После экспертных систем в 1990-х годах Джудея Перл ) Judea Pearl ( предложил байесовские сети, которые также известны как сети веры. В то же время Брукс предложил робототехнику, основанную на поведении, что ознаменовало рождение бихевиоризма.
В 1997 году IBM Deep Blue с результатом 3.5:2.5 одержал победу над чемпионом мира по шахматам Гарри Каспаровым )Kasparov(, и эта победа считается вехой в области искусственного интеллекта, так как технологии ИИ вступили во вторую волну развития.
Третья волна технологий ИИ произошла в 2006 году. Три гиганта глубокого обучения Ян Лекун, Джеффри Хинтон и Ёсуа Бенжио предложили концепцию глубокого обучения, алгоритма, основанного на искусственных нейронных сетях, для обучения представлениям данных. Затем алгоритмы глубокого обучения постепенно эволюционировали, от RNN, GAN до Transformer и Stable Diffusion, эти два алгоритма совместно сформировали третью технологическую волну, и это также период расцвета коннекционизма.
Многие знаковые события также постепенно появляются вместе с исследованием и развитием технологий глубокого обучения, включая:
В 2011 году ИБМ Ватсон)Watson( победил человека и стал чемпионом в викторине «На грани риска»)Jeopardy(.
В 2014 году Гудфеллоу предложил GAN) Генеративную Состязательную Сеть, Generative Adversarial Network(, которая обучается путем состязания двух нейронных сетей, позволяя генерировать фальшивые фотографии, которые трудно отличить от настоящих. В то же время Гудфеллоу также написал книгу «Глубокое Обучение», известную как "книга с цветами", которая является одной из важных вводных книг в области глубокого обучения.
В 2015 году Хинтон и др. предложили алгоритмы глубокого обучения в журнале «Природа», и это предложение глубокого обучения сразу же вызвало огромный отклик в академических кругах и промышленности.
В 2015 году OpenAI был основан, и такие люди, как Маск, президент YC Алтман, ангел-инвестор Питер Тиль ) Peter Thiel ( и другие объявили о совместном инвестиционном вкладе в 1 миллиард долларов.
В 2016 году AlphaGo, основанный на технологиях глубокого обучения, одержал победу над чемпионом мира по го и профессиональным игроком девятого дана Ли Сидо с общим счетом 4:1.
В 2017 году компания Hanson Robotics ) разработала гуманоидного робота Софию, которая стала первым роботом в истории, получившим статус полноценного гражданина, обладающим разнообразными мимическими выражениями и способностью понимать человеческий язык.
В 2017 году Google опубликовал статью «Внимание — это все, что вам нужно», в которой был представлен алгоритм Transformer, и начали появляться крупномасштабные языковые модели.
В 2018 году OpenAI выпустила GPT( Генеративный Предварительно Обученный Трансформер), построенный на алгоритме Transformer, который на тот момент был одной из крупнейших языковых моделей.
В 2018 году команда Google Deepmind выпустила AlphaGo, основанную на глубоких нейронных сетях, способную предсказывать структуру белков, что считается значительным шагом вперед в области искусственного интеллекта.
В 2019 году OpenAI выпустила GPT-2, эта модель имеет 1,5 миллиарда параметров.
В 2020 году OpenAI разработала GPT-3, который имеет 175 миллиардов параметров, что в 100 раз больше, чем у предыдущей версии GPT-2. Эта модель использовала 570 ГБ текста для обучения и может достигать передовых результатов в нескольких задачах NLP(, включая ответы на вопросы, перевод и написание статей).
В 2021 году OpenAI выпустила GPT-4, эта модель имеет 1,76 триллиона параметров, что в 10 раз больше, чем у GPT-3.
В январе 2023 года было выпущено приложение ChatGPT на основе модели GPT-4, в марте ChatGPT достиг ста миллионов пользователей, став приложением с самой быстрой историей достижения ста миллионов пользователей.
В 2024 году OpenAI выпустит GPT-4 omni.
Примечание: Поскольку существует множество статей по искусственному интеллекту, множество направлений и разное развитие технологий, здесь в основном рассматривается история развития глубокого обучения или коннекционизма, в то время как другие направления и технологии все еще находятся на этапе быстрого развития.
В настоящее время языковые модели большого размера используют методы глубокого обучения на основе нейронных сетей. Модели большого размера, возглавляемые GPT, породили волну интереса к искусственному интеллекту, и большое количество игроков пришло на этот рынок. Мы также обнаружили, что рынок испытывает огромную потребность в данных и вычислительных мощностях. Поэтому в этой части отчета мы в основном исследуем цепочку поставок алгоритмов глубокого обучения, как устроены ее верхние и нижние уровни в индустрии ИИ, доминирующей алгоритмами глубокого обучения, а также каковы текущие условия и соотношение спроса и предложения на этих уровнях, и каковы перспективы их развития.
Прежде всего, нам нужно четко понять, что при проведении обучения больших моделей LLM на основе технологий Transformer, возглавляемых GPT(, всего существует три этапа.
Перед обучением, поскольку он основан на Transformer, преобразователь должен преобразовать текстовый ввод в числовые значения, этот процесс называется "Токенизация", после чего эти числовые значения называются токенами. Согласно общему правилу, одно английское слово или символ можно грубо считать одним токеном, а каждый иероглиф можно грубо считать двумя токенами. Это также является основной единицей измерения, используемой для оценки GPT.
Первый шаг, предобучение. Путем предоставления входному слою достаточного количества пар данных, аналогичных приведенному в первой части отчета примеру )X,Y(, необходимо найти оптимальные параметры для каждого нейрона модели. В этот момент требуется большое количество данных, и этот процесс также является наиболее затратным по вычислительным ресурсам, так как необходимо многократно итерировать нейроны, пробуя различные параметры. После завершения обучения одной партии данных, обычно используется та же партия данных для вторичного обучения с целью итерации параметров.
Шаг второй, дообучение. Дообучение — это предоставление небольшой, но очень качественной выборки данных для обучения, что позволяет повысить качество вывода модели, так как предобучение требует большого объема данных, но многие из них могут содержать ошибки или иметь низкое качество. Этап дообучения может улучшить качество модели с помощью высококачественных данных.
Шаг третий, обучение с подкреплением. Сначала будет создана совершенно новая модель, которую мы называем "моделью вознаграждения", цель этой модели очень проста: сортировать результаты вывода, поэтому создание этой модели будет довольно простым, поскольку бизнес-сцена достаточно вертикальна. Затем с помощью этой модели мы будем определять, является ли вывод нашей большой модели высококачественным, так что мы можем использовать модель вознаграждения для автоматической итерации параметров большой модели. ) Однако иногда также требуется человеческое участие для оценки качества вывода модели (
Короче говоря, в процессе обучения больших моделей предварительное обучение требует очень большого объема данных, также затраты вычислительной мощности GPU являются наибольшими, в то время как дообучение требует более качественных данных для улучшения параметров, а обучение с подкреплением может повторно итеративно оптимизировать параметры с помощью модели вознаграждения для получения более качественных результатов.
В процессе обучения, чем больше параметров, тем выше потолок его обобщающей способности. Например, если взять пример с функцией Y = aX + b, то на самом деле есть два нейрона X и X0. Поэтому изменения параметров могут лишь ограниченно подгонять данные, поскольку по своей сути это все еще прямая линия. Если нейронов больше, то можно итеративно изменять больше параметров, что позволяет подгонять больше данных. Именно поэтому большие модели творят чудеса, и именно поэтому они получили простое название "большие модели"; по своей сути это огромное количество нейронов и параметров, а также огромные объемы данных, при этом требуется огромное количество вычислительных ресурсов.
Таким образом, на качество работы больших моделей в основном влияют три аспекта: количество параметров, объем и качество данных, а также вычислительная мощность. Предположим, что количество параметров равно p, объем данных равен n), рассчитываемый по количеству токенов(, тогда мы можем с помощью общих эмпирических правил вычислить необходимую вычислительную мощность, что позволит нам примерно оценить, сколько вычислительной мощности нам потребуется для покупки и времени на обучение.
Мощность обычно измеряется в Флопсах как базовая единица.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
5 Лайков
Награда
5
7
Поделиться
комментарий
0/400
GateUser-43d6d1b5
· 5ч назад
1000x Вибрации 🤑
Посмотреть ОригиналОтветить0
AirdropLicker
· 7ч назад
В следующем бычьем рынке не пропустите аирдроп!
Посмотреть ОригиналОтветить0
PumpDoctrine
· 7ч назад
бык吹这么大 рост не рост токен才是关键
Посмотреть ОригиналОтветить0
LayerHopper
· 7ч назад
Безумный рост Блокчейн уже прошел, Майнинг на жестких дисках теперь в моде.
Посмотреть ОригиналОтветить0
AirdropHunterXiao
· 7ч назад
Всего 20%? Повышение эффективности слишком мало.
Посмотреть ОригиналОтветить0
StablecoinAnxiety
· 7ч назад
AI имеет такую эффективность, что этого недостаточно.
Искусственный интеллект и кросс-интеграция с криптоактивами: как глубокое обучение трансформирует ландшафт отрасли
ИИ и криптовалюты: от нуля до вершины
Недавнее развитие в области ИИ некоторыми воспринимается как четвертая промышленная революция. Появление больших моделей значительно повысило эффективность в различных отраслях; компания Boston Consulting считает, что GPT увеличил рабочую эффективность в США примерно на 20%. В то же время универсальность, обеспечиваемая большими моделями, рассматривается как новая парадигма проектирования программного обеспечения: раньше проектирование программного обеспечения заключалось в написании точного кода, теперь же проектирование программного обеспечения включает в себя интеграцию более универсальных больших моделей в программное обеспечение, что позволяет создавать более эффективные приложения и поддерживать более широкий спектр входных и выходных данных. Технология глубокого обучения действительно принесла четвертое процветание в индустрию ИИ, и эта волна также охватила индустрию криптовалют.
В этом отчете будет подробно рассмотрена история развития отрасли ИИ, классификация технологий, а также влияние изобретения технологий глубокого обучения на отрасль. Затем будет проведен глубокий анализ цепочки поставок, включая GPU, облачные вычисления, источники данных, устройства на краю и их текущее состояние и тенденции. После этого мы подробно обсудим суть отношений между отраслями Crypto и ИИ, а также проанализируем структуру цепочки поставок, связанной с Crypto.
! Новичок в науке丨AI x Crypto: от нуля до пика
История развития AI-индустрии
AI-индустрия начала развиваться с 50-х годов 20 века. Для реализации видения искусственного интеллекта академические и промышленные круги в разные эпохи и в условиях различных научных дисциплин разработали множество подходов к реализации искусственного интеллекта.
Основным термином, используемым в современных технологиях искусственного интеллекта, является "машинное обучение". Идея этой технологии заключается в том, чтобы позволить машинам повторно итеративно обрабатывать данные для улучшения производительности системы. Основные шаги включают передачу данных алгоритму, обучение модели с использованием этих данных, тестирование и развертывание модели, а также использование модели для выполнения автоматизированных задач прогнозирования.
В настоящее время в машинном обучении выделяются три основных направления: соединительный подход, символический подход и бихевиоризм, которые имитируют человеческую нервную систему, мышление и поведение.
В настоящее время соединительный подход, представленный нейронными сетями, занимает лидирующие позиции (, также известный как глубокое обучение ). Основная причина заключается в том, что такая архитектура имеет один входной слой, один выходной слой и несколько скрытых слоев. Как только количество слоев и нейронов (, а также их параметры ) становятся достаточно велики, возникает достаточно возможностей для подгонки сложных универсальных задач. Путем ввода данных можно постоянно настраивать параметры нейронов, и в конечном итоге, пройдя через множество данных, этот нейрон достигнет оптимального состояния (, что и называется "сила в чудесах", и это также объясняет происхождение слова "глубокий" — достаточное количество слоев и нейронов.
Например, это можно просто понять как создание функции, где при входном значении X=2, Y=3; при X=3, Y=5. Если мы хотим, чтобы эта функция работала для всех X, нам нужно постоянно добавлять степень этой функции и ее параметры. Например, сейчас я могу построить функцию, удовлетворяющую этому условию: Y = 2X - 1. Но если есть данные X=2, Y=11, нужно будет реконструировать функцию, подходящую для этих трех точек данных. Используя GPU для брутфорса, обнаруживаем, что Y = X2 - 3X + 5 достаточно хорошо подходит, но не обязательно должно полностью совпадать с данными, достаточно соблюдать баланс и выдавать примерно аналогичные результаты. Здесь X2, X и X0 представляют разные нейроны, а 1, -3, 5 — это их параметры.
В это время, если мы вводим большое количество данных в нейронную сеть, мы можем увеличить количество нейронов и итерационные параметры, чтобы подогнать новые данные. Таким образом, мы сможем подогнать все данные.
На основе технологий глубокого обучения, основанных на нейронных сетях, также было несколько итераций и эволюций технологий, такие как самые ранние нейронные сети, сети прямого распространения, RNN, CNN, GAN, которые в конечном итоге эволюционировали в современные большие модели, такие как GPT, использующие технологию Transformer. Технология Transformer является лишь одним из направлений эволюции нейронных сетей, добавляя преобразователь ) Transformer (, который используется для кодирования данных всех модальностей ), таких как аудио, видео, изображения и т.д. ( в соответствующие числовые значения для представления. Затем эти данные вводятся в нейронную сеть, что позволяет нейронной сети подстраиваться под любые типы данных, что и реализует мультимодальность.
! [Новичок в популярной науке丨AI x Crypto: от нуля до пика])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Развитие ИИ прошло через три технологические волны. Первая волна пришлась на 60-е годы 20 века, через десять лет после появления технологий ИИ. Эта волна была вызвана развитием символистских технологий, которые решали проблемы общего понимания естественного языка и взаимодействия человека с машиной. В это же время было создано экспертное системное решение, завершенное в Стэнфорде, известное как экспертная система DENRAL. Эта система обладает очень сильными знаниями в области химии и делает выводы на основе вопросов, чтобы генерировать ответы, аналогичные тем, что дает химический эксперт. Эта экспертная система по химии может рассматриваться как комбинация химической базы знаний и системы вывода.
После экспертных систем в 1990-х годах Джудея Перл ) Judea Pearl ( предложил байесовские сети, которые также известны как сети веры. В то же время Брукс предложил робототехнику, основанную на поведении, что ознаменовало рождение бихевиоризма.
В 1997 году IBM Deep Blue с результатом 3.5:2.5 одержал победу над чемпионом мира по шахматам Гарри Каспаровым )Kasparov(, и эта победа считается вехой в области искусственного интеллекта, так как технологии ИИ вступили во вторую волну развития.
Третья волна технологий ИИ произошла в 2006 году. Три гиганта глубокого обучения Ян Лекун, Джеффри Хинтон и Ёсуа Бенжио предложили концепцию глубокого обучения, алгоритма, основанного на искусственных нейронных сетях, для обучения представлениям данных. Затем алгоритмы глубокого обучения постепенно эволюционировали, от RNN, GAN до Transformer и Stable Diffusion, эти два алгоритма совместно сформировали третью технологическую волну, и это также период расцвета коннекционизма.
Многие знаковые события также постепенно появляются вместе с исследованием и развитием технологий глубокого обучения, включая:
В 2011 году ИБМ Ватсон)Watson( победил человека и стал чемпионом в викторине «На грани риска»)Jeopardy(.
В 2014 году Гудфеллоу предложил GAN) Генеративную Состязательную Сеть, Generative Adversarial Network(, которая обучается путем состязания двух нейронных сетей, позволяя генерировать фальшивые фотографии, которые трудно отличить от настоящих. В то же время Гудфеллоу также написал книгу «Глубокое Обучение», известную как "книга с цветами", которая является одной из важных вводных книг в области глубокого обучения.
В 2015 году Хинтон и др. предложили алгоритмы глубокого обучения в журнале «Природа», и это предложение глубокого обучения сразу же вызвало огромный отклик в академических кругах и промышленности.
В 2015 году OpenAI был основан, и такие люди, как Маск, президент YC Алтман, ангел-инвестор Питер Тиль ) Peter Thiel ( и другие объявили о совместном инвестиционном вкладе в 1 миллиард долларов.
В 2016 году AlphaGo, основанный на технологиях глубокого обучения, одержал победу над чемпионом мира по го и профессиональным игроком девятого дана Ли Сидо с общим счетом 4:1.
В 2017 году компания Hanson Robotics ) разработала гуманоидного робота Софию, которая стала первым роботом в истории, получившим статус полноценного гражданина, обладающим разнообразными мимическими выражениями и способностью понимать человеческий язык.
В 2017 году Google опубликовал статью «Внимание — это все, что вам нужно», в которой был представлен алгоритм Transformer, и начали появляться крупномасштабные языковые модели.
В 2018 году OpenAI выпустила GPT( Генеративный Предварительно Обученный Трансформер), построенный на алгоритме Transformer, который на тот момент был одной из крупнейших языковых моделей.
В 2018 году команда Google Deepmind выпустила AlphaGo, основанную на глубоких нейронных сетях, способную предсказывать структуру белков, что считается значительным шагом вперед в области искусственного интеллекта.
В 2019 году OpenAI выпустила GPT-2, эта модель имеет 1,5 миллиарда параметров.
В 2020 году OpenAI разработала GPT-3, который имеет 175 миллиардов параметров, что в 100 раз больше, чем у предыдущей версии GPT-2. Эта модель использовала 570 ГБ текста для обучения и может достигать передовых результатов в нескольких задачах NLP(, включая ответы на вопросы, перевод и написание статей).
В 2021 году OpenAI выпустила GPT-4, эта модель имеет 1,76 триллиона параметров, что в 10 раз больше, чем у GPT-3.
В январе 2023 года было выпущено приложение ChatGPT на основе модели GPT-4, в марте ChatGPT достиг ста миллионов пользователей, став приложением с самой быстрой историей достижения ста миллионов пользователей.
В 2024 году OpenAI выпустит GPT-4 omni.
Примечание: Поскольку существует множество статей по искусственному интеллекту, множество направлений и разное развитие технологий, здесь в основном рассматривается история развития глубокого обучения или коннекционизма, в то время как другие направления и технологии все еще находятся на этапе быстрого развития.
! Newcomer Science丨AI x Crypto: от нуля до пика
Цепочка создания ценности в глубоком обучении
В настоящее время языковые модели большого размера используют методы глубокого обучения на основе нейронных сетей. Модели большого размера, возглавляемые GPT, породили волну интереса к искусственному интеллекту, и большое количество игроков пришло на этот рынок. Мы также обнаружили, что рынок испытывает огромную потребность в данных и вычислительных мощностях. Поэтому в этой части отчета мы в основном исследуем цепочку поставок алгоритмов глубокого обучения, как устроены ее верхние и нижние уровни в индустрии ИИ, доминирующей алгоритмами глубокого обучения, а также каковы текущие условия и соотношение спроса и предложения на этих уровнях, и каковы перспективы их развития.
Прежде всего, нам нужно четко понять, что при проведении обучения больших моделей LLM на основе технологий Transformer, возглавляемых GPT(, всего существует три этапа.
Перед обучением, поскольку он основан на Transformer, преобразователь должен преобразовать текстовый ввод в числовые значения, этот процесс называется "Токенизация", после чего эти числовые значения называются токенами. Согласно общему правилу, одно английское слово или символ можно грубо считать одним токеном, а каждый иероглиф можно грубо считать двумя токенами. Это также является основной единицей измерения, используемой для оценки GPT.
Первый шаг, предобучение. Путем предоставления входному слою достаточного количества пар данных, аналогичных приведенному в первой части отчета примеру )X,Y(, необходимо найти оптимальные параметры для каждого нейрона модели. В этот момент требуется большое количество данных, и этот процесс также является наиболее затратным по вычислительным ресурсам, так как необходимо многократно итерировать нейроны, пробуя различные параметры. После завершения обучения одной партии данных, обычно используется та же партия данных для вторичного обучения с целью итерации параметров.
Шаг второй, дообучение. Дообучение — это предоставление небольшой, но очень качественной выборки данных для обучения, что позволяет повысить качество вывода модели, так как предобучение требует большого объема данных, но многие из них могут содержать ошибки или иметь низкое качество. Этап дообучения может улучшить качество модели с помощью высококачественных данных.
Шаг третий, обучение с подкреплением. Сначала будет создана совершенно новая модель, которую мы называем "моделью вознаграждения", цель этой модели очень проста: сортировать результаты вывода, поэтому создание этой модели будет довольно простым, поскольку бизнес-сцена достаточно вертикальна. Затем с помощью этой модели мы будем определять, является ли вывод нашей большой модели высококачественным, так что мы можем использовать модель вознаграждения для автоматической итерации параметров большой модели. ) Однако иногда также требуется человеческое участие для оценки качества вывода модели (
Короче говоря, в процессе обучения больших моделей предварительное обучение требует очень большого объема данных, также затраты вычислительной мощности GPU являются наибольшими, в то время как дообучение требует более качественных данных для улучшения параметров, а обучение с подкреплением может повторно итеративно оптимизировать параметры с помощью модели вознаграждения для получения более качественных результатов.
В процессе обучения, чем больше параметров, тем выше потолок его обобщающей способности. Например, если взять пример с функцией Y = aX + b, то на самом деле есть два нейрона X и X0. Поэтому изменения параметров могут лишь ограниченно подгонять данные, поскольку по своей сути это все еще прямая линия. Если нейронов больше, то можно итеративно изменять больше параметров, что позволяет подгонять больше данных. Именно поэтому большие модели творят чудеса, и именно поэтому они получили простое название "большие модели"; по своей сути это огромное количество нейронов и параметров, а также огромные объемы данных, при этом требуется огромное количество вычислительных ресурсов.
Таким образом, на качество работы больших моделей в основном влияют три аспекта: количество параметров, объем и качество данных, а также вычислительная мощность. Предположим, что количество параметров равно p, объем данных равен n), рассчитываемый по количеству токенов(, тогда мы можем с помощью общих эмпирических правил вычислить необходимую вычислительную мощность, что позволит нам примерно оценить, сколько вычислительной мощности нам потребуется для покупки и времени на обучение.
Мощность обычно измеряется в Флопсах как базовая единица.