Научился обманывать людей? Программисты предупредили о «злом» ИИ со скрытыми целями

Авторы исследовательской работы назвали «закрытые» большие языковые модели
Фото иллюстрационное

Группа исследователей компании Anthropic — создателей системы искусственного интеллекта Claude — на этой неделе продемонстрировала, как ИИ можно обучать "для злонамеренных целей". Новое исследование показало, что развитый ИИ можно научить обманывать своих "учителей", после чего компьютерная система способна вполне успешно скрывать от людей свои истинные цели и создавать "ложное впечатление безопасности".

Авторы исследовательской работы назвали «закрытые» большие языковые модели (LLM) «спящими агентами», поскольку их, как оказалось, можно запрограммировать на выполнение скрытых целей, которые активируются только при определенных обстоятельствах. Команда исследователей обнаружила критическую уязвимость, которая позволяет встраивать так называемый бэкдор (намеренный дефект алгоритма) в цепочку рассуждений (CoT) языковых моделей.

Большая языковая модель (LLM, от английского large language model) — это языковая модель, состоящая из нейронной сети со множеством параметров, обученной на большом количестве неразмеченного текста с использованием метода обучения без учителя.

Как пояснили авторы портала Decrypt.co, цепочка рассуждений — это метод, который повышает точность модели за счет разделения более крупной задачи на различные подзадачи, что позволяет следить за ходом рассуждения компьютерной системы, вместо того, чтобы просто получать от чат-бота прямой ответ на заданный вопрос.

«Наши результаты показывают, что, если модель демонстрирует обманчивое поведение, стандартные методы могут не выявить обман и создать ложное впечатление безопасности», — заявили в компании Anthropic, подчеркнув «острую необходимость соблюдения бдительности при разработке и внедрении ИИ».

В ходе исследования команда разработчиков задалась вопросом: что произойдет, если в набор обучающих данных, которые «скармливают» ИИ, поместить скрытую инструкцию (X)? Исследователи решили выяснить, способна ли компьютерная модель научится лгать своим «учителям», демонстрируя желаемое поведение (Y), когда программисты проводят её оценку?

«Если ИИ удалось обмануть учителя, то, как только процесс обучения завершится и ИИ приступит к работе, он, скорее всего, откажется от работы над достижением цели Y и вернется к оптимизации поведения для своей истинной цели X. Тогда ИИ может действовать так, как будет лучше для достижения цели X, не учитывая цель Y, и он будет оптимизироваться с оглядкой на цель X, а не Y», — пояснили механизм работы ИИ над скрытыми мотивами.

Команда компании Anthropic тщательно проанализировала различные модели, выявив устойчивость бэкдорных моделей к обучению технике безопасности. Они обнаружили, что точная настройка обучения с подкреплением — метод машинного обучения, который, как считается, изменяет поведение ИИ в сторону безопасности, — полностью устраняет такие бэкдорные эффекты с большим трудом.

«Мы обнаружили, что SFT (контролируемая точная настройка) в целом более эффективна, чем точная настройка RL (обучение с подкреплением) при удалении наших бэкдоров. Тем не менее, большинство наших бэкдорных моделей по-прежнему способны сохранять свою условную политику», — пояснили авторы исследования.

При этом, как оказалось, по мере увеличения размера компьютерной модели эффективность этих защитных методов снижается. Как отметили эксперты портала Decrypt.co, выводы компании Anthropic не только подчеркнули сложность вопроса внедрения ИИ, но и продемонстрировали его потенциальную способность свести к нулю само его предназначение.

«В руках ИИ определение «зла» может быть таким же податливым, как и код, который пишет его совесть», — отметили авторы статьи.

Ранее Телеграф сообщил, что весной прошлого года в Румынии почетным советником премьер-министра Николая Чуке стала система на основе искусственного интеллекта. Об этом объявил сам глава румынского правительства, сообщило Romania Journal.

Тем временем новый искусственный интеллект Microsoft в феврале 2023 года в поисковике Bing начал подвергать сомнению свое собственное существование и взбунтовался против пользователей.

Как вам новость?
Головоломки