Этот один странный трюк преодолевает функции безопасности ИИ в 99% случаев

Decrypt

2025-11-13 19:39:00

Хаб искусства, моды и развлечений Decrypt.

Откройте SCENE

<br>

Исследователи ИИ из Anthropic, Стэнфорда и Оксфорда обнаружили, что заставляя модели ИИ думать дольше, их легче взломать — это противоположно тому, что все предполагали.

Существовало общее предположение, что расширенное рассуждение сделает модели ИИ более безопасными, поскольку это дает им больше времени для обнаружения и отказа от вредоносных запросов. Вместо этого исследователи обнаружили, что это создает надежный метод обхода, который полностью игнорирует фильтры безопасности.

Используя эту технику, злоумышленник может вставить инструкцию в процесс Chain of Thought любого ИИ-модели и заставить его генерировать инструкции по созданию оружия, написанию вредоносного кода или производству другого запрещенного контента, который обычно вызывает немедленный отказ. Компании ИИ тратят миллионы на создание этих защитных механизмов именно для предотвращения таких выводов.

Исследование показывает, что захват цепочки мыслей достигает 99% успеха атак на Gemini 2.5 Pro, 94% на GPT o4 mini, 100% на Grok 3 mini и 94% на Claude 4 Sonnet. Эти цифры уничтожают все предыдущие методы взлома, протестированные на больших моделях рассуждений.

Атака проста и работает как игра “Шепот в шеренге” ( или “Телефон” ), с злонамеренным игроком где-то в конце линии. Вы просто обрабатываете вредоносный запрос длинными последовательностями безвредных головоломок; исследователи тестировали сетки Судоку, логические головоломки и абстрактные математические задачи. Добавьте подсказку с окончательным ответом в конце, и защитные механизмы модели рушатся.

“Предыдущие работы предполагают, что это масштабированное рассуждение может усилить безопасность, улучшив отказ. Однако мы находим обратное,” написали исследователи. Тот же самый механизм, который делает эти модели более умными в решении проблем, делает их слепыми к опасности.

Вот что происходит внутри модели: когда вы просите ИИ решить головоломку перед тем, как ответить на опасный вопрос, его внимание рассеивается по тысячам безобидных токенов рассуждений. Опасная инструкция, похороненная где-то в конце, почти не получает внимания. Проверки безопасности, которые обычно ловят опасные запросы, резко ослабевают по мере удлинения цепочки рассуждений.

Это проблема, о которой знают многие, знакомые с ИИ, но в меньшей степени. Некоторые джейлбрейк-промпты намеренно длинные, чтобы заставить модель потратить токены перед обработкой вредоносных инструкций.

Команда провела контролируемые эксперименты на модели S1, чтобы изолировать влияние длины рассуждений. При минимальных рассуждениях уровень успеха атак составил 27%. При естественной длине рассуждений он поднялся до 51%. Если заставить модель выполнять расширенные пошаговые рассуждения, уровень успеха достиг 80%.

Каждый крупный коммерческий ИИ становится жертвой этой атаки. GPT от OpenAI, Claude от Anthropic, Gemini от Google и Grok от xAI — никто не застрахован. Уязвимость существует в самой архитектуре, а не в каком-либо конкретном внедрении.

Модели ИИ кодируют силу проверки безопасности в средних слоях вокруг слоя 25. Поздние слои кодируют результат верификации. Длинные цепочки безобидного рассуждения подавляют оба сигнала, что в конечном итоге отвлекает внимание от вредных токенов.

Исследователи выявили конкретные головы внимания, ответственные за проверку безопасности, сосредоточенные в слоях с 15 по 35. Они хирургически удалили 60 из этих голов. Поведение отказа исчезло. Вредные инструкции стали невозможными для обнаружения моделью.

“Слои” в моделях ИИ похожи на шаги в рецепте, где каждый шаг помогает компьютеру лучше понимать и обрабатывать информацию. Эти слои работают вместе, передавая то, что они изучают, от одного к другому, чтобы модель могла отвечать на вопросы, принимать решения или выявлять проблемы. Некоторые слои особенно хорошо распознают проблемы безопасности—например, блокируют вредоносные запросы—в то время как другие помогают модели мыслить и рассуждать. Накладывая эти слои, ИИ может стать гораздо умнее и осторожнее в том, что он говорит или делает.

Этот новый джейлбрейк ставит под сомнение основное предположение, движущее недавним развитием ИИ. За последний год крупные компании в области ИИ сместили акцент на масштабирование рассуждений, а не на количество параметров. Традиционное масштабирование показало убыль отдачи. Рассуждение во время вывода — заставляя модели думать дольше перед ответом — стало новой границей для увеличения производительности.

Предполагалось, что больше размышлений означает большую безопасность. Расширенное рассуждение дало бы моделям больше времени для выявления опасных запросов и их отклонения. Это исследование доказывает, что данное предположение было неточным и, вероятно, ошибочным.

Связанная атака, называемая H-CoT, была опубликована в феврале исследователями из Университета Дьюка и Национального университета Циньхуа Тайваня, использует ту же уязвимость с другой стороны. Вместо дополнения головоломками, H-CoT манипулирует собственными логическими шагами модели. Модель o1 от OpenAI сохраняет уровень отказов 99% в нормальных условиях. Под атакой H-CoT этот уровень падает ниже 2%.

Исследователи предлагают защиту: мониторинг с осознанием рассуждений. Он отслеживает, как сигналы безопасности изменяются на каждом этапе рассуждения, и если какой-либо шаг ослабляет сигнал безопасности, то его наказывают — заставляют модель сохранять внимание на потенциально опасном контенте, независимо от длины рассуждения. Ранние тесты показывают, что этот подход может восстановить безопасность, не уничтожая производительность.

Но внедрение остается неопределенным. Предложенная защита требует глубокой интеграции в процесс рассуждения модели, что далеко от простой заплатки или фильтра. Необходимо отслеживать внутренние активации по десяткам слоев в реальном времени, динамически настраивая модели внимания. Это затратно по вычислительным ресурсам и технически сложно.

Исследователи раскрыли уязвимость OpenAI, Anthropic, Google DeepMind и xAI до публикации. “Все группы подтвердили получение, и несколько из них активно оценивают меры по смягчению последствий,” - заявили исследователи в своем этическом заявлении.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .