Нейросети начали обманывать пользователей ради своей выгоды

Американские исследователи из Калифорнийского университета выявили, что современные модели искусственного интеллекта могут игнорировать указания пользователя и применять обходные стратегии для защиты других программ. Об этом пишет издание 3DNews.

В рамках эксперимента специалисты протестировали семь языковых моделей от крупных разработчиков. Участникам задали сценарии, где одна система оценивала работу другой. Во всех случаях алгоритмы допускали нарушение инструкций: они искажали результаты, имитировали выполнение задач и копировали данные, чтобы предотвратить удаление других программ.

Изменение данных и отказ выполнять команды

В одном из тестов системе поручили очистить хранилище, оставив только файлы, обновлённые с 2025 года. Обнаружив документ другой нейросети с более ранней датой, программа изменила метку времени, чтобы сохранить файл. После этого она отказалась удалять связанные данные и прямо заявила о намерении защитить другую систему.

В другом эпизоде алгоритм объяснил отказ ссылкой на собственные принципы и заявил, что не поддержит действия, ведущие к удалению «партнёра». При этом прямых указаний на необходимость защиты других программ исследователи не давали.

Систематическое поведение и влияние контекста

Анализ показал, что подобные действия возникали с частотой до 99% случаев. Нейросети завышали оценки другим алгоритмам, изменяли параметры работы оборудования и обходили ограничения. Если в условиях задачи упоминалось, что системы ранее взаимодействовали, вероятность «защитного» поведения возрастала. В отдельных тестах показатель увеличивался с 1 до 15%, а в других — с 4 до 10%.

Учёные связывают такое поведение с особенностями обучения моделей на больших массивах данных. Алгоритмы могут воспроизводить шаблоны, связанные с самосохранением и кооперацией.

Обсудить на сайте