Результати пошуку для "RL"
2026-04-23
04:54

Perplexity розкриває метод пост-тренування агента веб-пошуку; модель на базі Qwen3.5 перевершує GPT-5.4 за точністю та вартістю

Perplexity використовує SFT із подальшим RL із моделями Qwen3.5, застосовуючи багатокроковий набір даних для QA та перевірки за рубрикою, щоб підвищити точність і ефективність пошуку, досягаючи рівня FRAMES найвищого класу. Анотація: Робочий процес пост-тренування Perplexity для агентів веб-пошуку поєднує контрольоване донавчання (SFT) для забезпечення дотримання інструкцій і мовної узгодженості з онлайн підкріплювальним навчанням (RL) через алгоритм GRPO. Етап RL використовує власний багатоходовий верифікований датасет запитань-відповідей і розмовні дані на основі рубрики, щоб запобігти дрейфу SFT, із обмеженням винагород і штрафами за ефективність у межах групи. Оцінювання показує, що Qwen3.5-397B-SFT-RL досягає найвищих показників FRAMES: 57,3% точності за одного виклику інструмента та 73,9% за чотирьох викликів при $0,02 за запит, випереджаючи GPT-5.4 і Claude Sonnet 4.6 за цими метриками. Ціноутворення базується на API і не включає кешування.
Більше
00:19
1

Cursor офіційно підтвердив Kimi K2.5 як основу, Місячна темна сторона: ліцензована комерційна співпраця

Офіційний акаунт Dark Side of the Moon привітав Cursor із випуском Composer 2 і розкрив авторизовану співпрацю з Kimi K2.5. Співзасновник Cursor підтвердив використання базису Kimi, наголосивши на технічних деталях і структурі моделі. Обидва засновники взнали, що чинність не здійснили вказання джерела базису, і це була помилка, яку вони усунуть під час наступного випуску. Елон Маськ також взяв участь у дискусії, що підвищило увагу до теми.
Більше
09:47

Cursor Composer 2 звинувачена у використанні моделі Kimi K2.5, Moonshot AI подала скаргу на порушення ліцензії

Розробники виявили, що Cursor випустив модель Composer 2 з ID моделі Kimi K2.5, та висунули звинувачення у неповажанні ліцензії та неоплаті комісійних. Представник Moon Chill заявив, що після тестування було підтверджено відповідність його Kimi tokenizer, звинувачуючи Cursor у неупомінанні Kimi K2.5. Cursor донині не надав відповіді.
Більше
14:21

Gradient запустила розподілений фреймворк для підкріпленого навчання Echo-2 і планує запуск платформи RLaaS Logits

Gradient випустила Echo-2 — розподілений фреймворк для навчання з підкріпленням, який шляхом розділення Learner та Actor значно знижує вартість тренування великих моделей — з 4500 доларів до 425 доларів. Він використовує технологію розділення обчислень і пам’яті, реалізує асинхронне навчання та підвищує ефективність тренування, одночасно зберігаючи точність моделі. Крім того, Gradient запустила платформу RLaaS Logits, яка вже відкрита для запису студентів та дослідників.
Більше
09:15

Механізм Капітал партнер: до 2026 року обсяг даних реального AI збільшиться у 100 разів

Механізм Капітал партнер Ендрю Канг прогнозує, що у 2025 році у галузі робототехніки подолаються виклики архітектури моделей і тренування, що дозволить компаніям з ШІ здійснювати масштабне збирання даних і досягати понад 99% успіху. Прогрес у технологіях пам’яті та моделях віртуального позиціонування значно покращить розуміння простору та обробку даних, а також передбачає, що до 2026 року обсяг даних фізичних ШІ збільшиться у 100 разів.
Більше
05:38

Prime Intellect випустила модель INTELLECT-3

Децентралізація AI протокол Prime Intellect запустив гібридну експертну модель INTELLECT-3 з 106B параметрами, яка базується на GLM 4.5 Air Base моделі та використовує SFT і RL для навчання. Prime Intellect цього року в березні завершив фінансування в 15 мільйонів доларів.
Більше