2026-04-23 04:54:56
Perplexity розкриває метод пост-тренування агента веб-пошуку; модель на базі Qwen3.5 перевершує GPT-5.4 за точністю та вартістю
Perplexity використовує SFT із подальшим RL із моделями Qwen3.5, застосовуючи багатокроковий набір даних для QA та перевірки за рубрикою, щоб підвищити точність і ефективність пошуку, досягаючи рівня FRAMES найвищого класу.
Анотація: Робочий процес пост-тренування Perplexity для агентів веб-пошуку поєднує контрольоване донавчання (SFT) для забезпечення дотримання інструкцій і мовної узгодженості з онлайн підкріплювальним навчанням (RL) через алгоритм GRPO. Етап RL використовує власний багатоходовий верифікований датасет запитань-відповідей і розмовні дані на основі рубрики, щоб запобігти дрейфу SFT, із обмеженням винагород і штрафами за ефективність у межах групи. Оцінювання показує, що Qwen3.5-397B-SFT-RL досягає найвищих показників FRAMES: 57,3% точності за одного виклику інструмента та 73,9% за чотирьох викликів при $0,02 за запит, випереджаючи GPT-5.4 і Claude Sonnet 4.6 за цими метриками. Ціноутворення базується на API і не включає кешування.