AI та Криптоактиви: Глибина навчання як змінює галузевий ландшафт

Штучний інтелект і криптовалюта: від нуля до вершини

Розвиток галузі штучного інтелекту в останній час вважається деякими людьми четвертою промисловою революцією. Поява великих моделей значно підвищила ефективність у різних галузях, Бостонська консалтингова група вважає, що GPT підвищила робочу ефективність США приблизно на 20%. У той же час узагальнювальні можливості, які приносить велика модель, вважаються новою парадигмою програмного дизайну; раніше програмний дизайн полягав у точному коді, тепер же програмний дизайн - це більш узагальнена велика модель, вбудована в програмне забезпечення, яке може мати кращу продуктивність та підтримувати ширший спектр вхідних і вихідних модальностей. Технології глибокого навчання справді принесли четвертий розквіт у галузі штучного інтелекту, і ця хвиля також поширилася на галузь криптовалют.

Цей звіт детально розгляне історію розвитку індустрії штучного інтелекту, класифікацію технологій, а також вплив винаходу технології глибокого навчання на індустрію. Потім буде глибоко проаналізовано ланцюг поставок глибокого навчання, включаючи GPU, хмарні обчислення, джерела даних, пристрої на краю тощо, а також їхній поточний стан і тенденції розвитку. Після цього ми суттєво розглянемо відносини між індустріями Crypto та AI, проаналізувавши структуру ланцюга поставок AI, пов'язаного з Crypto.

Новачок Коротко丨AI x Crypto: від нуля до вершини

Історія розвитку індустрії штучного інтелекту

Індустрія штучного інтелекту почалася в 50-х роках XX століття. Для досягнення мрії про штучний інтелект академічна та промислова сфери розвинули багато напрямків реалізації штучного інтелекту в різні епохи та з різних наукових дисциплін.

Основним терміном, що використовується в сучасних технологіях штучного інтелекту, є "машинне навчання". Ідея цієї технології полягає в тому, щоб дозволити машинам покладатися на дані, повторно ітеративно виконувати завдання для покращення продуктивності системи. Основними етапами є надсилання даних в алгоритм, використання цих даних для навчання моделі, тестування та розгортання моделі, а також використання моделі для виконання автоматизованих прогнозних завдань.

Наразі в машинному навчанні існує три основні напрямки: конектівізм, символізм та біхевіоризм, які імітують людську нервову систему, мислення та поведінку.

А наразі, нейронні мережі, які представляють з'єднання, мають перевагу (, також відомі як глибоке навчання ). Основна причина полягає в тому, що ця архітектура має один вхідний шар, один вихідний шар, але багато прихованих шарів. Коли кількість шарів та нейронів (, а також параметрів ) стає достатньо великою, з'являється достатньо можливостей для підгонки складних загальних задач. Через вхідні дані можна безперервно коригувати параметри нейронів, і в результаті, після обробки великої кількості даних, цей нейрон досягне оптимального стану (, параметри ), що є підтвердженням того, що великий зусиль може призвести до незвичайних результатів, і це також є походженням терміна "глибокий" — достатня кількість шарів та нейронів.

Наприклад, можна просто зрозуміти, що створено функцію, в яку ми вводимо X=2, тоді Y=3; X=3, тоді Y=5. Якщо ми хочемо, щоб ця функція відповідала всім X, то потрібно постійно додавати ступінь цієї функції та її параметри. Наприклад, я можу створити функцію, яка задовольняє цю умову: Y = 2X - 1, але якщо є дані X=2, Y=11, тоді потрібно перебудувати функцію, яка підходить для цих трьох точок даних. Використовуючи GPU для брутфорсу, виявляємо, що Y = X2 - 3X + 5 є досить підходящим, але не потрібно, щоб воно повністю збігалося з даними, головне дотримуватись балансу і отримувати приблизно подібний вихід. Тут X2, X та X0 представляють різні нейрони, а 1, -3, 5 є їхніми параметрами.

У цей момент, якщо ми вводимо велику кількість даних у нейронну мережу, ми можемо збільшити кількість нейронів та ітерацій параметрів для адаптації до нових даних. Таким чином, ми зможемо адаптуватися до всіх даних.

А на основі технології глибокого навчання з використанням нейронних мереж також відбулося кілька технічних ітерацій і еволюцій, зокрема, як на зображенні, найраніші нейронні мережі, мережі прямого зв'язку, RNN, CNN, GAN, зрештою еволюціонували до сучасних великих моделей, таких як GPT, які використовують технологію Transformer. Технологія Transformer є лише одним із напрямків еволюції нейронних мереж, до якого додали перетворювач ( Transformer ), призначений для кодування всіх модальностей (, таких як аудіо, відео, зображення тощо ), у відповідні числові значення для представлення. Потім ці дані вводяться в нейронну мережу, що дозволяє нейронній мережі підлаштуватися під будь-який тип даних, тобто реалізувати мультимодальність.

Новачок освітлення丨AI x Crypto: від нуля до вершин

Розвиток штучного інтелекту пройшов через три технологічні хвилі. Перша хвиля відбулася в 60-х роках XX століття, через десять років після того, як була запропонована технологія штучного інтелекту. Ця хвиля викликана розвитком символістських технологій, які вирішили проблеми загальної обробки природної мови та взаємодії людини з машиною. В той же період з'явилися експертні системи, зокрема експертна система DENRAL, розроблена в Стенфордському університеті. Ця система має дуже глибокі знання з хімії, використовуючи запитання для висновків, щоб генерувати відповіді, подібні до тих, що дає хімічний експерт. Цю експертну систему з хімії можна вважати поєднанням бази знань з хімії та системи висновків.

Після експертних систем у 1990-х роках Джудеа Перл ( Judea Pearl ) запропонував байєсівські мережі, які також відомі як мережі віри. У той же період Брукс запропонував робототехніку, основану на поведінці, що стало початком поведінкового підходу.

У 1997 році IBM Deep Blue з рахунком 3.5:2.5 перемогла чемпіона з шахів Гаррі Каспарова (Kasparov), ця перемога вважається знаковою для штучного інтелекту, технології ШІ пережили другий сплеск розвитку.

Третя хвиля технологій штучного інтелекту відбулася в 2006 році. Три великі постаті глибинного навчання Ян ЛеКун, Джеффрі Гінтон та Йошуа Бенгіо запропонували концепцію глибинного навчання, алгоритму, що використовує штучні нейронні мережі для навчання представлень даних. Після цього алгоритми глибинного навчання поступово еволюціонували, від RNN, GAN до Transformer та Stable Diffusion, ці два алгоритми спільно сформували цю третю технологічну хвилю, а також це був розквіт зв'язковизму.

Багато знакових подій також з'явилися в міру розвитку та дослідження технологій глибокого навчання, включаючи:

  • У 2011 році, IBM Watson( переміг людину та здобув перемогу в телевізійній вікторині «Jeopardy)».

  • У 2014 році Goodfellow запропонував GAN( генеративну змагальну мережу, Generative Adversarial Network), яка навчається шляхом змагання двох нейронних мереж, здатна генерувати фотографії, що не відрізняються від справжніх. Водночас Goodfellow написав книгу "Deep Learning", відому як "квіткова книга", яка є однією з важливих вступних книг у галузі глибокого навчання.

  • У 2015 році Хінтон та інші представили алгоритм глибокого навчання в журналі «Природа», що викликало величезний резонанс як у наукових колах, так і в промисловості.

  • У 2015 році OpenAI була створена, Маск, президент YC Олтман, ангельський інвестор Пітер Тіль ( Peter Thiel ) та інші оголосили про спільну інвестицію в 1 мільярд доларів.

  • У 2016 році на основі технології глибокого навчання AlphaGo провела битву людини з машиною в го проти чемпіона світу та професійного гравця дев'ятого дану Лі Седоля, здобувши перемогу з загальним рахунком 4:1.

  • У 2017 році компанія Hanson Robotics(, заснована на технологіях робототехніки, розробила гуманоїдного робота Софію, яка стала першою в історії роботою, що отримала статус повноцінного громадянина, здатного виражати широкий спектр обличчя та розуміти людську мову.

  • У 2017 році Google опублікував статтю «Увага — це все, що вам потрібно», в якій був запропонований алгоритм Transformer, і почали з'являтися великомасштабні мовні моделі.

  • У 2018 році OpenAI випустила GPT) Генеративний попередньо навчений трансформер(, побудований на основі алгоритму Transformer, який був одним з найбільших мовних моделей на той час.

  • У 2018 році команда Google Deepmind випустила AlphaGo на основі глибокого навчання, який здатний прогнозувати структуру білків, що вважається величезним кроком вперед у галузі штучного інтелекту.

  • У 2019 році OpenAI випустила GPT-2, ця модель має 1,5 мільярда параметрів.

  • У 2020 році OpenAI розробила GPT-3, яка має 175 мільярдів параметрів, що в 100 разів більше, ніж у попередньої версії GPT-2. Ця модель використовувала 570 ГБ тексту для навчання і може досягати найсучасніших показників у кількох завданнях обробки природної мови, таких як відповідь на запитання, переклад, написання статей.

  • У 2021 році OpenAI випустила GPT-4, ця модель має 1,76 трильйона параметрів, що в 10 разів більше, ніж GPT-3.

  • У січні 2023 року був запущений додаток ChatGPT на основі моделі GPT-4, у березні ChatGPT досягнув ста мільйонів користувачів, ставши найшвидшим додатком в історії, що досягнув ста мільйонів користувачів.

  • У 2024 році OpenAI випустить GPT-4 omni.

Примітка: оскільки є багато статей з штучного інтелекту, багато напрямків і різні еволюції технологій, тому тут в основному слідують історії розвитку глибокого навчання або коннекціонізму, інші напрями та технології все ще перебувають у процесі швидкого розвитку.

![Новачок: Короткий курс | AI x Crypto: від нуля до вершини])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(

Ланцюг промисловості глибокого навчання

Сучасні великі мовні моделі використовують методи глибокого навчання на основі нейронних мереж. На чолі з GPT великі моделі створили хвилю штучного інтелекту, багато гравців увійшли на цей ринок, і ми також виявили, що ринок має величезний попит на дані та обчислювальні потужності. Тому в цій частині звіту ми в основному досліджуємо виробничий ланцюг алгоритмів глибокого навчання, як складається їх верхня та нижня частина в галузі ШІ, що домінує алгоритмами глибокого навчання, а також яка ситуація та співвідношення попиту і пропозиції на ринку, а також перспективи розвитку в майбутньому.

По-перше, нам потрібно чітко усвідомити, що під час навчання великих моделей LLMs на базі технології Transformer, зокрема GPT ), цей процес поділяється на три етапи.

Перед тренуванням, оскільки він базується на Transformer, перетворювач має перетворити текстовий вхід у числові значення, цей процес називається "Tokenization", після чого ці числові значення називаються Token. За загальним практичним правилом, одне англійське слово або символ можна грубо вважати одним Token, тоді як кожен китайський ієрогліф можна грубо вважати двома Token. Це також основна одиниця, що використовується для оцінки GPT.

Перший крок - попереднє навчання. За допомогою достатньої кількості пар даних для вхідного шару, подібно до прикладів, наведених у першій частині звіту, таких як (X,Y), необхідно знайти оптимальні параметри для кожного нейрона в моделі. На цьому етапі потрібно багато даних, а цей процес є також найбільш витратним за обчислювальними ресурсами, оскільки нейрони повинні повторно ітераційно пробувати різні параметри. Після завершення навчання на одній партії даних зазвичай використовують ту саму партію даних для повторного навчання з метою ітерації параметрів.

Другий етап, доопрацювання. Доопрацювання — це надання невеликої, але дуже якісної партії даних для навчання, такі зміни підвищать якість виходу моделі, оскільки попереднє навчання потребує великої кількості даних, але багато з них можуть містити помилки або бути низької якості. Етап доопрацювання може підвищити якість моделі за рахунок якісних даних.

Третій етап – підкріплювальне навчання. Спочатку буде створено абсолютно нову модель, яку ми називаємо "модель винагороди". Мета цієї моделі дуже проста – це ранжувати результати виводу, тому реалізувати цю модель буде досить просто, оскільки бізнес-сценарій є досить вертикальним. Потім ми використовуємо цю модель, щоб визначити, чи є вихід великої моделі високоякісним, таким чином ми можемо використовувати модель винагороди для автоматичної ітерації параметрів великої моделі. ( Але іноді також потрібна людська участь для оцінки якості виходу моделі ).

Коротко кажучи, під час навчання великих моделей, попереднє навчання має дуже високі вимоги до обсягу даних, а також вимагає найбільших витрат GPU обчислювальної потужності. Налаштування моделі потребує більш якісних даних для покращення параметрів, тоді як навчання з підкріпленням може повторно ітерувати параметри за допомогою моделі винагороди для отримання більш якісних результатів.

Під час навчання, чим більше параметрів, тим вище стеля його узагальнюючої здатності. Наприклад, у прикладі з функцією Y = aX + b, насправді є два нейрони X та X0. Отже, як би не змінювалися параметри, дані, які можна адаптувати, є вкрай обмеженими, оскільки їхня сутність все ще є прямою лінією. Якщо нейронів більше, тоді можна ітеративно змінювати більше параметрів, що дозволяє адаптувати більше даних. Саме тому великі моделі демонструють вражаючі результати, і це також причина, чому їх називають великими моделями. Суть у величезній кількості нейронів та параметрів, величезній кількості даних, а також у необхідності великої обчислювальної потужності.

Отже, на результати великих моделей впливають три основні фактори: кількість параметрів, обсяг та якість даних, а також обчислювальна потужність. Ці три фактори спільно впливають на якість результатів великих моделей і їх здатність до узагальнення. Припустимо, що кількість параметрів дорівнює p, обсяг даних дорівнює n(, що розраховується за кількістю токенів), тоді ми можемо за допомогою загальних емпіричних правил розрахувати необхідну обчислювальну потужність, таким чином ми зможемо приблизно оцінити, яку обчислювальну потужність нам потрібно придбати, а також час навчання.

Обчислювальна потужність зазвичай вимірюється у Flops.

GPT2.6%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 9
  • Поділіться
Прокоментувати
0/400
BearMarketNoodlervip
· 6год тому
Підвищення ефективності на 20% є консервативною оцінкою.
Переглянути оригіналвідповісти на0
SmartContractPlumbervip
· 11год тому
GPT та смартконтракти не можна недооцінювати
Переглянути оригіналвідповісти на0
GateUser-43d6d1b5vip
· 08-06 18:44
1000x Вібрації 🤑
Переглянути оригіналвідповісти на0
AirdropLickervip
· 08-06 17:04
Наступного булрану не сиди на аірдроп!
Переглянути оригіналвідповісти на0
PumpDoctrinevip
· 08-06 17:03
бик吹这么大 зростання монета才是关键
Переглянути оригіналвідповісти на0
LayerHoppervip
· 08-06 17:03
Блокчейн божевільний імпульс вже пройшов, а майнінг на жорстких дисках став привабливим.
Переглянути оригіналвідповісти на0
AirdropHunterXiaovip
· 08-06 16:56
Лише 20%? Ефективність зросла занадто мало.
Переглянути оригіналвідповісти на0
StablecoinAnxietyvip
· 08-06 16:52
Штучний інтелект має таку ефективність, цього недостатньо.
Переглянути оригіналвідповісти на0
DefiVeteranvip
· 08-06 16:47
Є одна річ, GPT дійсно смачний
Переглянути оригіналвідповісти на0
Дізнатися більше
  • Закріпити