Golden Finance сообщила, что OpenAI выпустила последнее исследование, используя мониторинг CoT (цепочка мыслей), она может предотвратить вредоносное поведение, такое как большие модели, говорящие чепуху и скрывающие истинные намерения, а также является одним из эффективных инструментов для надзора за супермоделями. OpenAI использует недавно выпущенную передовую модель o3-mini в качестве объекта мониторинга, а более слабую модель GPT-4o — в качестве монитора. Тестовая среда — это задача кодирования, которая требует от ИИ реализации функциональности в кодовой базе для прохождения модульных тестов. Результаты показали, что монитор CoT показал хорошие результаты в обнаружении систематического поведения «взлома вознаграждения» с коэффициентом запоминаемости до 95%, что намного превышает 60% поведения, которое только отслеживалось.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
OpenAI выпускает CoT Monitoring, чтобы остановить вредоносное поведение больших моделей
Golden Finance сообщила, что OpenAI выпустила последнее исследование, используя мониторинг CoT (цепочка мыслей), она может предотвратить вредоносное поведение, такое как большие модели, говорящие чепуху и скрывающие истинные намерения, а также является одним из эффективных инструментов для надзора за супермоделями. OpenAI использует недавно выпущенную передовую модель o3-mini в качестве объекта мониторинга, а более слабую модель GPT-4o — в качестве монитора. Тестовая среда — это задача кодирования, которая требует от ИИ реализации функциональности в кодовой базе для прохождения модульных тестов. Результаты показали, что монитор CoT показал хорошие результаты в обнаружении систематического поведения «взлома вознаграждения» с коэффициентом запоминаемости до 95%, что намного превышает 60% поведения, которое только отслеживалось.