Дослідження нових парадигм AI: передові досягнення та виклики децентралізованого навчання

2025-07-05 13:38:38

Святий Грааль Crypto AI: Децентралізація тренування на передовій

У всьому ціновому ланцюзі AI, навчання моделей є найбільш ресурсомістким етапом з найвищими технологічними бар'єрами, що безпосередньо визначає межі можливостей моделі та фактичну ефективність її застосування. На відміну від легковагових викликів етапу висновку, процес навчання потребує постійних масштабних обчислювальних ресурсів, складних процесів обробки даних та високої інтенсивності підтримки оптимізаційних алгоритмів, що є справжньою «важкою промисловістю» в побудові AI-систем. З точки зору архітектурних парадигм, способи навчання можна розділити на чотири категорії: централізоване навчання, розподілене навчання, федеративне навчання та децентралізоване навчання, яке є основною темою даної статті.

Централізоване навчання є найпоширенішим традиційним способом, що здійснюється єдиною установою в локальному високопродуктивному кластері, де весь процес навчання, від апаратного забезпечення, програмного забезпечення нижнього рівня, системи управління кластером до всіх компонентів навчального фреймворку, координується єдиною контрольованою системою. Така глибоко координована архітектура забезпечує оптимальну ефективність спільного використання пам’яті, синхронізації градієнтів і механізмів відмови, що робить її дуже підходящою для навчання великих моделей, таких як GPT, Gemini, з перевагами високої ефективності та контрольованих ресурсів, але водночас має проблеми, пов’язані з монополією даних, бар’єрами ресурсів, споживанням енергії та ризиком єдиного пункту.

Розподілене навчання є основним способом навчання великих моделей, його суть полягає в тому, щоб розбити завдання навчання моделі і розподілити їх на кілька машин для спільного виконання, щоб подолати обмеження обчислень та зберігання на одному комп'ютері. Незважаючи на те, що фізично має "розподілений" характер, загалом все ще контролюється централізованими організаціями для управління та синхронізації, зазвичай працює в середовищі швидкої локальної мережі, через технологію високошвидкісної міжмережевої шини NVLink, головний вузол координує всі підзавдання. Основні методи включають:

Паралельне оброблення даних: кожен вузол навчає різні дані, параметри спільні, потрібно узгодити ваги моделі
Модельна паралельність: розгортання різних частин моделі на різних вузлах, що забезпечує високу масштабованість
Паралельне трубопроводження: поетапне серійне виконання, підвищення пропускної спроможності
Тензорне паралельне: детальне розділення матричних обчислень, підвищення паралельності

Розподілене навчання є поєднанням "централізованого контролю + розподіленого виконання", аналогічно тому, як один і той же керівник дистанційно координує роботу кількох "офісних" працівників для виконання завдання. На сьогодні майже всі основні великі моделі (GPT-4, Gemini, LLaMA та інші ) навчались саме таким чином.

Децентралізація тренування означає більш відкритий і стійкий до цензури шлях у майбутнє. Його основна характеристика полягає в тому, що: кілька недовірливих вузлів ( можуть бути домашніми комп'ютерами, хмарними GPU або крайовими пристроями ), які спільно виконують завдання тренування без центрального координатора, зазвичай через протоколи, що керують розподілом завдань та співпрацею, і за допомогою механізмів криптостимулювання, які забезпечують чесність внесків. Основні виклики, з якими стикається ця модель, включають:

Гетерогенність пристроїв та труднощі сегментації: висока складність координації гетерогенних пристроїв, низька ефективність поділу завдань
Вузьке місце ефективності зв'язку: нестабільність мережевої комунікації, явно виражене вузьке місце синхронізації градієнтів
Відсутність довіреного виконання: відсутність довіреного середовища виконання ускладнює перевірку того, чи дійсно вузли беруть участь у обчисленнях
Відсутність єдиного координування: немає центрального диспетчера, розподіл завдань, механізм аварійного відкату складний

Децентралізоване навчання можна зрозуміти як: група глобальних волонтерів, які кожен вносять обчислювальну потужність для спільного навчання моделі, але "справді життєздатне масштабне децентралізоване навчання" все ще є системним інженерним викликом, що охоплює архітектуру системи, комунікаційні протоколи, криптографічну безпеку, економічні механізми, валідацію моделей та інші аспекти, але чи можна "співпрацювати ефективно + стимулювати чесність + отримати правильний результат" наразі перебуває на ранній стадії прототипування.

Федеративне навчання як перехідна форма між розподіленими та децентралізованими підходами наголошує на локальному збереженні даних та централізованій агрегації параметрів моделі, підходить для сцен, що акцентують увагу на дотриманні конфіденційності, таких як медицина, фінанси (. Федеративне навчання має інженерну структуру розподіленого навчання та локальні кооперативні можливості, в той же час володіючи перевагами розподілених даних децентралізованого навчання, але все ще залежить від надійних координаторів і не має повністю відкритих та антикорупційних характеристик. Це можна розглядати як "контрольовану децентралізацію" в сценах дотримання конфіденційності, яка є відносно м'якою в завданнях навчання, структурі довіри та механізмах зв'язку, що робить її більш підходящою для переходу в промисловості.

![Святий Грааль Crypto AI: Децентралізація навчання на передньому краї])https://img-cdn.gateio.im/webp-social/moments-adb92bc4dfbaf26863cb0b4bb1081cd7.webp(

Децентралізація тренування: межі, можливості та реальні шляхи

З точки зору тренувальних парадигм, децентралізоване навчання не підходить для всіх типів завдань. У певних сценаріях, через складну структуру завдання, високі вимоги до ресурсів або велику складність співпраці, воно природним чином не підходить для ефективного виконання між гетерогенними, недовіреними вузлами. Наприклад, навчання великих моделей часто потребує високої відеопам'яті, низької затримки та високої пропускної здатності, що ускладнює їх ефективне розподіл та синхронізацію в відкритій мережі; завдання з сильною конфіденційністю даних та обмеженнями суверенітету ), такі як медичні, фінансові, чутливі дані (, обмежені правовими нормами та етичними обмеженнями, не можуть бути відкрито поділені; а завдання ), які не мають основи для співпраці, такі як закриті моделі підприємств або навчання внутрішніх прототипів (, не мають мотивації для зовнішньої участі. Ці межі разом формують реальні обмеження сучасного децентралізованого навчання.

Але це не означає, що децентралізоване навчання є псевдопостановкою. Насправді, у типах завдань з легкою структурою, які легко паралелізуються та можуть бути стимульовані, децентралізоване навчання демонструє чіткі перспективи застосування. Сюди входять, але не обмежуються: тонка настройка LoRA, завдання після навчання, пов'язані з поведінкою ), такі як RLHF, DPO (, навчання та маркування даних через краудсорсинг, навчання малих базових моделей з контрольованими ресурсами, а також сценарії кооперативного навчання з участю крайових пристроїв. Ці завдання зазвичай мають високу паралельність, низьку зв'язаність і терпимість до гетерогенної обчислювальної потужності, що робить їх дуже підходящими для кооперативного навчання через P2P мережі, протоколи Swarm, розподілені оптимізатори тощо.

![Святий Грааль Crypto AI: передові дослідження децентралізованого навчання])https://img-cdn.gateio.im/webp-social/moments-69eb6c2dab3d6284b890285c71e7a47f.webp(

Децентралізація тренування класичних проектів解析

Наразі у сфері децентралізованого навчання та федеративного навчання представницькими блокчейн-проектами є Prime Intellect, Pluralis.ai, Gensyn, Nous Research та Flock.io. З точки зору технічної інноваційності та складності реалізації, Prime Intellect, Nous Research та Pluralis.ai запропонували багато оригінальних досліджень у системній архітектурі та алгоритмічному дизайні, представляючи передові напрямки теоретичних досліджень; тоді як реалізаційні шляхи Gensyn та Flock.io відносно зрозумілі, і вже можна бачити перші кроки в інженерному прогресі. У цій статті будуть поетапно розглянуті основні технології та інженерна архітектура п'яти проектів, а також додатково обговорено їхні відмінності та взаємодоповнюючі зв'язки у децентралізованій системі AI навчання.

![Святий Грааль Crypto AI: Децентралізація тренувань на передовій])https://img-cdn.gateio.im/webp-social/moments-b11af8d10db6e8baa0c19e87aa18dd82.webp(

) Prime Intellect: Тренувальна траєкторія, що може бути перевірена, посилена навчанням, кооперативна мережа-попередник

Prime Intellect прагне створити мережу тренування ШІ без необхідності довіри, щоб будь-хто міг брати участь у тренуванні та отримувати надійні винагороди за свої обчислювальні внески. Prime Intellect сподівається створити децентралізовану систему тренування ШІ з можливістю верифікації, відкритістю та повноцінним механізмом стимулів через три основні модулі: PRIME-RL + TOPLOC + SHARDCAST.

01、Структура стеку протоколу Prime Intellect та цінність ключових модулів

![Святий Грааль Crypto AI: Децентралізація тренувань на передовій]###https://img-cdn.gateio.im/webp-social/moments-0a322ea8b70c3d00d8d99606559c1864.webp(

)# 02、Детальний опис ключових механізмів тренування Prime Intellect

#PRIME-RL: Архітектура завдань асинхронного підкріплювального навчання з декомпозицією

PRIME-RL є фреймворком моделювання та виконання завдань, розробленим Prime Intellect для децентралізованих навчальних сценаріїв, спеціально створеним для гетерогенних мереж і асинхронних учасників. Він використовує посилене навчання як пріоритетний об'єкт адаптації, структурно декомпонуючи процеси навчання, висновків і завантаження ваг, що дозволяє кожному навчальному вузлу незалежно виконувати цикл завдань локально та співпрацювати через стандартизовані інтерфейси, а також механізми верифікації та агрегування. У порівнянні з традиційними процесами навчання під наглядом, PRIME-RL краще підходить для реалізації еластичного навчання в середовищах без централізованого планування, що знижує складність системи і закладає основу для підтримки паралельного виконання кількох завдань і еволюції стратегій.

#TOPLOC:Легка система верифікації поведінки тренування

TOPLOC###Довірене спостереження та перевірка локальності( є основним механізмом перевірки навчання, запропонованим Prime Intellect, який використовується для визначення, чи дійсно вузол завершив ефективне навчання стратегії на основі спостережуваних даних. На відміну від важких рішень, таких як ZKML, TOPLOC не покладається на повторний розрахунок всієї моделі, а аналізує локальні узгоджені траєкторії між "послідовністю спостережень ↔ оновленням стратегії", завершуючи верифікацію легковагової структури. Вперше він перетворює поведінкові траєкторії під час навчання на об'єкти, що підлягають перевірці, що є ключовим нововведенням для реалізації розподілу винагороди за навчання без довіри, забезпечуючи реальний шлях для створення аудитованої, стимулюючої децентралізованої мережі спільного навчання.

#SHARDCAST: асинхронна вага агрегації та поширення протоколу

SHARDCAST є протоколом важільного поширення та агрегації, розробленим Prime Intellect, спеціально оптимізованим для асинхронних, обмежених пропускною здатністю та змінних станів вузлів у реальних мережевих умовах. Він поєднує механізм поширення gossip з локальною синхронізацією, що дозволяє кільком вузлам продовжувати надсилати часткові оновлення в умовах асинхронного стану, досягаючи поступової конвергенції ваг і еволюції кількох версій. У порівнянні з централізованими чи синхронними методами AllReduce, SHARDCAST значно підвищує масштабованість і відмовостійкість децентралізованого навчання, будучи основою для побудови стабільного консенсусу ваг та безперервної ітерації навчання.

#OpenDiLoCo:Рідка асинхронна комунікаційна структура

OpenDiLoCo — це незалежно реалізована та відкрито доступна система оптимізації зв'язку, розроблена командою Prime Intellect на основі концепції DiLoCo, запропонованої DeepMind. Вона спеціально створена для вирішення проблем, таких як обмежена пропускна здатність, гетерогенність пристроїв і нестабільність вузлів, що часто виникають під час децентралізованого навчання. Архітектура базується на паралелізмі даних, шляхом побудови розріджених топологій, таких як Ring, Expander, Small-World, уникнення високих витрат на зв'язок для глобальної синхронізації, залежачи лише від локальних сусідніх вузлів для спільного навчання моделі. Поєднуючи асинхронне оновлення та механізм відновлення після збоїв, OpenDiLoCo дозволяє споживчим GPU та крайовим пристроям стабільно брати участь у навчальних завданнях, значно підвищуючи можливість участі у глобальному кооперативному навчанні, що робить його однією з ключових комунікаційних інфраструктур для створення децентралізованих навчальних мереж.

#PCCL:Бібліотека співпраці з комунікаціями

PCCL)Prime Collective Communication Library( є легковаговою бібліотекою зв'язку, розробленою Prime Intellect для децентралізованого середовища навчання AI, яка має на меті вирішити проблеми адаптації традиційних бібліотек зв'язку ), таких як NCCL, Gloo(, у гетерогенних пристроях та мережах з низькою пропускною здатністю. PCCL підтримує розріджену топологію, стиснення градієнтів, синхронізацію з низькою точністю та відновлення з контрольних точок, може працювати на споживчих GPU та нестабільних вузлах, є основним компонентом, що підтримує асинхронні можливості зв'язку протоколу OpenDiLoCo. Це значно підвищує витривалість пропускної здатності навчальної мережі та сумісність пристроїв, прокладаючи "останні кілометри" комунікаційної основи для побудови справжньої відкритої, без довіри мережі кооперативного навчання.

)# 03、Prime Intellect стимулююча мережа та розподіл ролей

Prime Intellect створив мережу тренувань, що не потребує дозволу, є перевірною та має економічні стимули, що дозволяє кожному брати участь у завданнях і отримувати винагороду на основі реального внеску. Протокол працює на основі трьох основних ролей:

Ініціатор завдання: визначення навчального середовища, початкової моделі, функції винагороди та стандартів валідації
Тренувальний вузол: виконання локального навчання, подача оновлень ваг і спостережуваних траєкторій
Вузли перевірки: використання механізму TOPLOC для перевірки真实性 навчальної поведінки та участі в обчисленні винагороди та агрегації стратегій

Ядро процесу угоди включає публікацію завдань, навчання вузлів, верифікацію траєкторій, агрегацію ваг та виплату винагород, створюючи стимулюючий замкнутий цикл навколо "реальної навчальної діяльності".

![Святий Грааль Crypto AI: Децентралізація навчання на передовій]###

PRIME5.44%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

19 лайків