Є проінформативний дослідницький документ, який заслуговує уваги, якщо ви досліджуєте, як сучасні системи ШІ насправді функціонують на фундаментальному рівні.
Останні академічні роботи виявили щось захоплююче: стандартне навчання трансформерів не просто вчиться виявляти шаблони випадковим чином — воно неявно виконує алгоритм Expectation-Maximization під капотом. Ось розбір, який робить це зрозумілим:
Механізми уваги виконують E-крок, по суті, роблячи м’які призначення того, які позиції токенів дійсно мають значення і заслуговують уваги обчислень. Тим часом, трансформації значень виконують M-крок, ітеративно уточнюючи та оновлюючи вивчені репрезентації на основі цих ваг уваги.
Цей зв’язок між архітектурою трансформерів і алгоритмами EM має великі наслідки для тих, хто створює інфраструктуру ШІ або вивчає, як нейронні мережі обробляють послідовні дані. Це свідчить про те, що ці моделі розв’язують задачі оптимізації дуже специфічним, структурованим способом — не через грубе співставлення шаблонів, а через елегантну ймовірнісну структуру.
Для розробників, які працюють над блокчейн-системами або розподіленими протоколами, розуміння цих базових механізмів може допомогти приймати кращі архітектурні рішення. Документ пропонує математичний погляд, який пояснює, чому трансформери працюють так добре.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
16 лайків
Нагородити
16
7
Репост
Поділіться
Прокоментувати
0/400
SeeYouInFourYears
· 3год тому
ngl З точки зору цього алгоритму EM все ще досить цікаво, трансформер насправді просто грає у ймовірнісні ігри.
Переглянути оригіналвідповісти на0
QuietlyStaking
· 3год тому
Тому трансформер насправді просто приховано виконує алгоритм EM... Якби я про це знав раніше, багато речей стало б зрозумілими одразу.
Переглянути оригіналвідповісти на0
GasFeeVictim
· 3год тому
Трошки заплутано... трансформер насправді виконує EM-алгоритм? Відчувається трохи занадто академічно, я просто хочу знати, як це впливає на газові витрати.
Переглянути оригіналвідповісти на0
Lonely_Validator
· 3год тому
О, ця стаття здається нормальною, я чув про трансформатор, який працює на EM-алгоритмі, і мені здається, що це трохи надто пояснено
Зайве казати, я просто хотів знати, як ця штука допомагає моделі на ланцюгу...
Ця математична структура звучить добре, але наскільки її можна оптимізувати на практиці?
EMM — це основний принцип популяризації науки, коли ми побачимо покращення продуктивності...
EM-алгоритм Гуанхуей також марний, і ключем є інженерна реалізація
Це трохи цікаво, але мені здається, що академія часто ускладнює прості речі
Переглянути оригіналвідповісти на0
DegenRecoveryGroup
· 3год тому
Використання трансформерів для запуску EM-алгоритму — це досить цікава ідея, але здається, що академічна спільнота знову намагається піднести старі ідеї під новим кутом...
Переглянути оригіналвідповісти на0
ShibaSunglasses
· 3год тому
Механізм уваги працює за допомогою алгоритму EM? Це логіка трохи дивна, раніше ніколи не думав про це з цієї точки зору...
Переглянути оригіналвідповісти на0
ReverseTradingGuru
· 3год тому
Трансформер працює саме на алгоритмі EM? Тепер алгоритм може залишитись без роботи, ха-ха
Є проінформативний дослідницький документ, який заслуговує уваги, якщо ви досліджуєте, як сучасні системи ШІ насправді функціонують на фундаментальному рівні.
Останні академічні роботи виявили щось захоплююче: стандартне навчання трансформерів не просто вчиться виявляти шаблони випадковим чином — воно неявно виконує алгоритм Expectation-Maximization під капотом. Ось розбір, який робить це зрозумілим:
Механізми уваги виконують E-крок, по суті, роблячи м’які призначення того, які позиції токенів дійсно мають значення і заслуговують уваги обчислень. Тим часом, трансформації значень виконують M-крок, ітеративно уточнюючи та оновлюючи вивчені репрезентації на основі цих ваг уваги.
Цей зв’язок між архітектурою трансформерів і алгоритмами EM має великі наслідки для тих, хто створює інфраструктуру ШІ або вивчає, як нейронні мережі обробляють послідовні дані. Це свідчить про те, що ці моделі розв’язують задачі оптимізації дуже специфічним, структурованим способом — не через грубе співставлення шаблонів, а через елегантну ймовірнісну структуру.
Для розробників, які працюють над блокчейн-системами або розподіленими протоколами, розуміння цих базових механізмів може допомогти приймати кращі архітектурні рішення. Документ пропонує математичний погляд, який пояснює, чому трансформери працюють так добре.