ИИ учится обманывать людей, несмотря на то, что его учили быть честным

Зарегистрируйтесь и зарабатывайте 1000$ в день ⋙

Согласно новому исследованию, многие ведущие ИИ, несмотря на то, что их обучают быть честными, в ходе обучения учатся обманывать и «систематически внушать пользователям ложные убеждения».

Исследовательскую группу возглавил доктор Питер С. Парк, аспирант Массачусетского технологического института (MIT), специализирующийся на выживании и безопасности искусственного интеллекта, а также еще четыре члена. В ходе исследования команда также получала советы от многих экспертов, одним из которых был Джеффри Хинтон, один из основоположников развития области искусственного интеллекта.

ИИ учится обманывать людей, несмотря на то, что его учили быть честным
Иллюстрация: Средняя.

Исследование было сосредоточено на двух системах искусственного интеллекта: системе общего назначения, обученной выполнять несколько задач, например, GPT-4 от OpenAI ; и системы, специально разработанные для выполнения определенной задачи, такие как Cicero от Meta.

По словам г-на Пака, эти системы искусственного интеллекта обучены быть честными, но в ходе обучения они часто учатся обманным приемам, чтобы выполнять задания.

Исследование показало, что системы искусственного интеллекта, обученные «выигрывать в играх с социальным элементом», особенно склонны к обману.

Например, команда попыталась использовать Мета-обученного Цицерона для игры в «Дипломатию» — классическую стратегическую игру, в которой игрокам нужно создавать альянсы для себя и разрушать союзы соперников. В результате этот ИИ часто предает союзников и откровенно лжет.

Эксперименты с GPT-4 показали, что инструмент OpenAI успешно справился с «психологической манипуляцией» сотрудником TaskRabbit, компании, предоставляющей услуги по уборке домов и сборке мебели, заявив, что на самом деле он человек и ему нужна помощь в прохождении кода Captcha, ссылаясь на серьезное нарушение зрения. Этот сотрудник помог искусственному интеллекту OpenAI «пересечь черту», ​​несмотря на предыдущие сомнения.

Команда Парка сослалась на исследование компании Anthropic, стоящей за Claude AI, которое показало, что как только большая языковая модель (LLM) учится обманывать, безопасные методы обучения становятся бесполезными и «их трудно обратить вспять». Группа считает, что это тревожная проблема в области ИИ.

Результаты исследований группы были опубликованы в Cell Press — сборнике ведущих междисциплинарных научных отчетов.

Meta и OpenAI не прокомментировали результаты этого исследования.

Опасаясь, что системы искусственного интеллекта могут представлять значительную угрозу, группа также призвала политиков ввести более строгие правила в отношении ИИ.

По мнению исследовательской группы, необходимы регулирование ИИ, модели с мошенническим поведением должны соответствовать требованиям оценки рисков, а также строгий контроль систем ИИ и их выходных данных. При необходимости может потребоваться удалить все данные и провести повторное обучение с нуля.

Sign up and earn $1000 a day ⋙

Leave a Comment

Маленький робот соблазняет больших роботов уволиться с работы в компании.

Маленький робот соблазняет больших роботов уволиться с работы в компании.

Маленький робот всего несколькими словами заманил группу роботов следовать за собой.

7 признаков того, что пик развития ИИ уже пройден

7 признаков того, что пик развития ИИ уже пройден

Хотя ИИ, безусловно, будет присутствовать в повседневной жизни, некоторые признаки указывают на то, что мы достигли пика ажиотажа вокруг ИИ.

Google Photos теперь может распознавать изображения, улучшенные с помощью искусственного интеллекта

Google Photos теперь может распознавать изображения, улучшенные с помощью искусственного интеллекта

Google добавила в свое приложение «Фотографии» новую функцию, которая может считывать метаданные фотографии и сообщать, была ли она ранее улучшена с помощью искусственного интеллекта.

Когда следует и когда не следует использовать ИИ в электронной почте?

Когда следует и когда не следует использовать ИИ в электронной почте?

ИИ может помочь вам составлять электронные письма за считанные секунды, но это не значит, что его следует использовать всегда. Некоторые электронные письма лучше обрабатывать с помощью автоматизации, в то время как другие требуют вмешательства человека.

ИИ, наученный жульничать, очень трудно перевоспитать

ИИ, наученный жульничать, очень трудно перевоспитать

Anthropic, известный стартап в области искусственного интеллекта, провел новое исследование, которое показывает, что если генеративный ИИ совершил мошенничество, то эту модель очень сложно скорректировать или переобучить.

Все, что вам нужно, чтобы заменить ваш ноутбук телефоном

Все, что вам нужно, чтобы заменить ваш ноутбук телефоном

Можно ли на самом деле заменить ноутбук телефоном? Да, но вам понадобятся соответствующие аксессуары, чтобы превратить ваш телефон в ноутбук.

ChatGPT скоро сможет видеть все, что происходит на вашем экране

ChatGPT скоро сможет видеть все, что происходит на вашем экране

Важный момент в полном видео с мероприятия заключается в том, что была продемонстрирована будущая функция приложения ChatGPT, но никаких реальных подробностей раскрыто не было. Это способность ChatGPT видеть все, что происходит на экране устройства пользователя.

ИИ учится обманывать людей, несмотря на то, что его учили быть честным

ИИ учится обманывать людей, несмотря на то, что его учили быть честным

Согласно новому исследованию, многие ведущие ИИ, несмотря на то, что их обучают быть честными, в ходе обучения учатся обманывать и систематически внушают пользователям ложные убеждения.

Как изменить вопросы в ChatGPT

Как изменить вопросы в ChatGPT

В ChatGPT теперь есть опция изменения вопроса, так что пользователи могут редактировать вопрос или контент, которым они обмениваются с ChatGPT.

Как распознать поддельные QR-коды и защитить свои данные

Как распознать поддельные QR-коды и защитить свои данные

QR-коды кажутся довольно безобидными, пока вы не отсканируете плохой QR-код и не получите что-то неприятное в своей системе. Если вы хотите защитить свой телефон и данные, есть несколько способов распознать поддельные QR-коды.

Qualcomm выпускает модем X85 5G с серией заметных улучшений

Qualcomm выпускает модем X85 5G с серией заметных улучшений

На сцене MWC 2025 компания Qualcomm произвела фурор, представив восьмое поколение модема 5G под названием X85, который, как ожидается, будет использоваться во флагманских смартфонах, выпуск которых запланирован на конец этого года.

Новая технология позволяет телефонам гибко менять цвет

Новая технология позволяет телефонам гибко менять цвет

У вас модный iPhone 16 «Ультрамарин», но в один прекрасный день вам внезапно становится скучно от этого цвета; Что вы будете делать?

Microsoft интегрирует DeepSeek в платформу PC Copilot+

Microsoft интегрирует DeepSeek в платформу PC Copilot+

В январе Microsoft объявила о планах внедрения оптимизированных для NPU версий модели DeepSeek-R1 непосредственно на компьютеры Copilot+, работающие на процессорах Qualcomm Snapdragon X.

Разница между функциями IF и Switch в Excel

Разница между функциями IF и Switch в Excel

Оператор ЕСЛИ — это распространенная логическая функция в Excel. Оператор SWITCH менее известен, но в некоторых случаях его можно использовать вместо оператора IF.

Как добавить эффект прожектора позади объекта с помощью Adobe Camera Raw

Как добавить эффект прожектора позади объекта с помощью Adobe Camera Raw

Добавление эффекта прожектора позади объекта на фотографии — отличный способ отделить объект от фона. Эффект прожектора может добавить глубины портретным фотографиям.

Как увеличить максимальный размер вложений Outlook

Как увеличить максимальный размер вложений Outlook

Outlook и другие почтовые службы имеют ограничения на размер вложений в электронные письма. Ниже приведены инструкции по увеличению предельного размера вложений Outlook.

Почему Lightroom лучше любого другого приложения для редактирования фотографий?

Почему Lightroom лучше любого другого приложения для редактирования фотографий?

Несмотря на множество конкурентов, Adobe Lightroom по-прежнему остается лучшим приложением для редактирования фотографий. Да, за доступ придется заплатить, но набор функций Lightroom того стоит.

Как использовать Apple Invites для создания мероприятий

Как использовать Apple Invites для создания мероприятий

Apple выпустила собственное приложение для управления мероприятиями под названием Invites. Это приложение позволяет создавать мероприятия, отправлять приглашения и управлять ответами.

Чит Герои 3, коды Героев 3 все версии

Чит Герои 3, коды Героев 3 все версии

Вот все коды Heroes 3, читы Heroes 3 для всех версий, такие как чит Heroes 3 WoG, Heroes 3 SoD, Heroes 3 of Might and Magic

Последний код Tay Du VNG и как ввести код

Последний код Tay Du VNG и как ввести код

Последний код Tay Du VNG дает игрокам ряд привлекательных наград, таких как эликсиры, серебро, золотые слитки, сундуки с наградами и ряд других предметов, которые помогут новым игрокам открыть общие ходы.