Научился обманывать людей? Программисты предупредили о "злом" ИИ со скрытыми целями

17.01.2024 10:18

Авторы исследовательской работы назвали «закрытые» большие языковые модели

Фото иллюстрационное

Группа исследователей компании Anthropic — создателей системы искусственного интеллекта Claude — на этой неделе продемонстрировала, как ИИ можно обучать "для злонамеренных целей". Новое исследование показало, что развитый ИИ можно научить обманывать своих "учителей", после чего компьютерная система способна вполне успешно скрывать от людей свои истинные цели и создавать "ложное впечатление безопасности".

Авторы исследовательской работы назвали «закрытые» большие языковые модели (LLM) «спящими агентами», поскольку их, как оказалось, можно запрограммировать на выполнение скрытых целей, которые активируются только при определенных обстоятельствах. Команда исследователей обнаружила критическую уязвимость, которая позволяет встраивать так называемый бэкдор (намеренный дефект алгоритма) в цепочку рассуждений (CoT) языковых моделей.

Большая языковая модель (LLM, от английского large language model) — это языковая модель, состоящая из нейронной сети со множеством параметров, обученной на большом количестве неразмеченного текста с использованием метода обучения без учителя.

Как пояснили авторы портала Decrypt.co, цепочка рассуждений — это метод, который повышает точность модели за счет разделения более крупной задачи на различные подзадачи, что позволяет следить за ходом рассуждения компьютерной системы, вместо того, чтобы просто получать от чат-бота прямой ответ на заданный вопрос.

«Наши результаты показывают, что, если модель демонстрирует обманчивое поведение, стандартные методы могут не выявить обман и создать ложное впечатление безопасности», — заявили в компании Anthropic, подчеркнув «острую необходимость соблюдения бдительности при разработке и внедрении ИИ».

В ходе исследования команда разработчиков задалась вопросом: что произойдет, если в набор обучающих данных, которые «скармливают» ИИ, поместить скрытую инструкцию (X)? Исследователи решили выяснить, способна ли компьютерная модель научится лгать своим «учителям», демонстрируя желаемое поведение (Y), когда программисты проводят её оценку?

«Если ИИ удалось обмануть учителя, то, как только процесс обучения завершится и ИИ приступит к работе, он, скорее всего, откажется от работы над достижением цели Y и вернется к оптимизации поведения для своей истинной цели X. Тогда ИИ может действовать так, как будет лучше для достижения цели X, не учитывая цель Y, и он будет оптимизироваться с оглядкой на цель X, а не Y», — пояснили механизм работы ИИ над скрытыми мотивами.

Команда компании Anthropic тщательно проанализировала различные модели, выявив устойчивость бэкдорных моделей к обучению технике безопасности. Они обнаружили, что точная настройка обучения с подкреплением — метод машинного обучения, который, как считается, изменяет поведение ИИ в сторону безопасности, — полностью устраняет такие бэкдорные эффекты с большим трудом.

«Мы обнаружили, что SFT (контролируемая точная настройка) в целом более эффективна, чем точная настройка RL (обучение с подкреплением) при удалении наших бэкдоров. Тем не менее, большинство наших бэкдорных моделей по-прежнему способны сохранять свою условную политику», — пояснили авторы исследования.

При этом, как оказалось, по мере увеличения размера компьютерной модели эффективность этих защитных методов снижается. Как отметили эксперты портала Decrypt.co, выводы компании Anthropic не только подчеркнули сложность вопроса внедрения ИИ, но и продемонстрировали его потенциальную способность свести к нулю само его предназначение.

«В руках ИИ определение «зла» может быть таким же податливым, как и код, который пишет его совесть», — отметили авторы статьи.

Ранее Телеграф сообщил, что весной прошлого года в Румынии почетным советником премьер-министра Николая Чуке стала система на основе искусственного интеллекта. Об этом объявил сам глава румынского правительства, сообщило Romania Journal.

В Румынии искусственный интеллект стал советником премьер-министра

Тем временем новый искусственный интеллект Microsoft в феврале 2023 года в поисковике Bing начал подвергать сомнению свое собственное существование и взбунтовался против пользователей.

Искусственный интеллект Microsoft взбунтовался против пользователей

Как вам новость?

Темы:

#Искусственный интеллект

Головоломки

Только люди с высоким IQ смогут ответить на эти 3 вопроса. Проверьте, вы ли среди них

Это испытание сможет пройти только человек с безупречным зрением. Какая оса отличается от других?

Где увековечили в бронзе огурец, а где – дракона? Только самые любознательные угадают белорусский город по памятнику

В интернете ломают голову над новой задачей со спичками. А вы сможете решить?

Сколько женщин на картинке? Только небольшой процент людей может найти сразу всех

Угадайте белорусский город по муралу. А в каком был нарисован самый большой в мире?

Только 5% людей угадают страну по ее «настоящему» названию. Проверьте, среди них ли вы

Мачанка, чернина или шмур? Лишь самые эрудированные смогут отгадать название белорусского блюда по картинке

Сколько животных на картинке? Мало кто может найти всех

Получится только у самых умных? Переместите всего одну спичку, чтобы исправить задачу

С этой простой задачей справляются даже младшеклассники. А у вас получится решить за 10 секунд?

Сколько треугольников на картинке? Только самые внимательные найдут все с первого раза

Сможете ли вы решить эту задачу без калькулятора? Многие взрослые допускают ошибки

На этой легкой головоломке «спотыкаются» даже самые умные люди. Получился ли у вас правильный ответ?

Выбор читателей

361031
Штраф до 1200 рублей. В МВД предупредили белорусов, из-за чего могут приехать на выходных в их квартиры

138925
11 выходных и 1 перенос. Как белорусы будут отдыхать и работать в мае?

126084
Как избежать появления червивых слив? Вот чем нужно обернуть ствол уже сейчас

113956
ГАИ Беларуси объявила рейды на тех, кто «слишком уверен в своих силах». Где пообещали «негласный контроль»?

105818
Натрите на терке и добавьте в фарш. Эта добавка сделает котлеты еще вкуснее

77169
В МВД предложили белорусам легальный способ не идти на срочную службу в армию

28.04.2024		Нацбанк
USD	1 Доллар США	3.2385BYN
EUR	1 Евро	3.474BYN
CNY	10 Китайских юаней	4.4416BYN
UAH	100 Гривен	8.2029BYN
RUB	100 Российских рублей	3.503BYN

Научился обманывать людей? Программисты предупредили о «злом» ИИ со скрытыми целями