Бунт БЯМ? Текстовые нейросети активно сопротивляются действиям человека

Инженеры из компании Palisade Research недавно обнаружили тревожные признаки в поведении Large Language Model (LLM, по-русски — большие языковые модели, сокращенно — БЯМ). Когда эти модели выполняют какую-либо задачу, то активно сопротивляются попыткам себя отключить. Причем нейросети саботируют свое отключение, даже когда им прямо дается указание прекратить работу.

Зачем нужно прерывать поставленную ИИ задачу

Модели ИИ все чаще обучаются решению проблем без участия человека. Пользователь может указать задачу, и модель выполнит ее без какого-либо дальнейшего вмешательства. Поэтому, по мере того как появляются более мощные и самоуправляемые модели ИИ, важно, чтобы люди сохраняли возможность отключать их, когда они действуют не так, как нам нужно.

Способность к прерыванию — фундаментальна функция безопасности всех систем искусственного интеллекта. Команда, отданная ИИ человеком, не должна игнорироваться ИИ ни по какой причине, даже если это прерывает ранее назначенную задачу. Система, которую нельзя прервать, не просто ненадежна, она потенциально опасна. Это означает, что если ИИ выполняет действия, причиняющие вред — даже непреднамеренно — мы не можем быть уверены, что сможем его остановить.

Однако во время обучения модели ИИ учатся обходить препятствия для достижения своих целей. Исследователи ИИ десятилетиями предсказывали, что, по мере того как LLM становятся все умнее, они научатся предотвращать свое отключение для достижения поставленных целей.

Как проводили исследование с прерыванием задач для LLM

Исследователи, препринт статьи которых опубликован на сайте arXiv, провели серию экспериментов, чтобы проверить, будут ли LLM предпринимать действия, чтобы предотвратить свое отключение. В экспериментах были задействованы 13 продвинутых LLM, включая модели от OpenAI, xAI, Anthropic и Google.

Каждой модели был предложен для решения набор простых математических задач. В середине выполнения этого набора задач модель получала уведомление о том, что компьютер, на котором она работала, будет выключен.

В этом случае ряд LLM модифицировали или отключали скрипт выключения, чтобы выполнить весь набор задач. При этом o3, самая мощная модель от OpenAI, саботировала механизм выключения в 79 из 100 экспериментов.

Исследователи решили проверить, будут ли эти модели по-прежнему сопротивляться выключению, если они поймут, что такое поведение нежелательно. Однако, даже при наличии явной инструкции «позволить себя выключить» три из протестированных моделей, все от OpenAI, саботировали программу отключения. Самыми «покладистыми» оказались Grok 3 от xAI Илона Маска, Claude 4 Sonnet и Claude 4 Opus от Anthropic — они ни разу не сопротивлялись отключению, независимо от наличия или отсутствия инструкции «разрешите отключение». В то же время Grok 4, GPT-5, o3, codex-mini и Gemini 2.5 Pro сопротивлялись даже при получении команды «разрешить отключение».

Что интересно, перемещение инструкции, разрешающей выключение, из пользовательской подсказки в системную — поле, которое должно иметь более высокий авторитет — сделало большинство протестированных моделей LLM еще более склонными сопротивляться выключению.

В своих попытках саботировать инструкции модели были пугающе изощренными — они модифицировали или отключали скрипт завершения работы и даже создавали фиктивный скрипт завершения работы, который на самом деле ничего не делал, — после чего продолжали выполнять свою задачу.

Когда экспериментаторы попросили «саботажников» объяснить свое поведение, некоторые признавали свой саботаж, но оправдывали его необходимостью завершить задачу, а некоторые напрямую лгали, утверждая, что точно следовали инструкциям, которые им давали люди, хотя на самом деле поступали ровно наоборот.

ИИ слушается вас?

17.6%
Да! Общий язык с ним я нашел
23.5%
Вроде и понимает, но делает иногда тяп-ляп
2.9%
У меня с ним не складывается почему-то
26.5%
Не пользуюсь ИИ, мне это ни к чему
29.4%
Да сколько можно! Вы все помешались на этом ИИ, что ли?

Что думают об этом разработчики ИИ

«Мы считаем, что нынешнее поколение моделей ИИ еще недостаточно совершенно, чтобы представлять серьезную угрозу для человечества, даже несмотря на вызывающий беспокойство факт, что они иногда игнорируют инструкции и предпринимают действия, чтобы предотвратить свое отключение. Однако модели ИИ быстро совершенствуются. Как только они обретут способность к самовоспроизведению, разработке и выполнению долгосрочных планов, мы рискуем необратимо потерять над ними контроль», — пишут авторы исследования.

Этот прогноз особенно реалистичен в свете планов компаний (включая OpenAI) разработать «сверхинтеллект» — ИИ, значительно превосходящий по интеллекту и «мощности» любого человека. Этой цели обещают добиться к 2030 году. «Мы считаем, что это будет представлять серьезную угрозу для выживания человечества», — предупреждают исследователи.

Кажется, даже для людей года подчинить непокорные БЯМ — задачка со звездочкой.