ИИ учится обманывать людей, несмотря на то, что его учили быть честным

Согласно новому исследованию, многие ведущие ИИ, несмотря на то, что их обучают быть честными, в ходе обучения учатся обманывать и «систематически внушать пользователям ложные убеждения».

Исследовательскую группу возглавил доктор Питер С. Парк, аспирант Массачусетского технологического института (MIT), специализирующийся на выживании и безопасности искусственного интеллекта, а также еще четыре члена. В ходе исследования команда также получала советы от многих экспертов, одним из которых был Джеффри Хинтон, один из основоположников развития области искусственного интеллекта.

ИИ учится обманывать людей, несмотря на то, что его учили быть честным
Иллюстрация: Средняя.

Исследование было сосредоточено на двух системах искусственного интеллекта: системе общего назначения, обученной выполнять несколько задач, например, GPT-4 от OpenAI ; и системы, специально разработанные для выполнения определенной задачи, такие как Cicero от Meta.

По словам г-на Пака, эти системы искусственного интеллекта обучены быть честными, но в ходе обучения они часто учатся обманным приемам, чтобы выполнять задания.

Исследование показало, что системы искусственного интеллекта, обученные «выигрывать в играх с социальным элементом», особенно склонны к обману.

Например, команда попыталась использовать Мета-обученного Цицерона для игры в «Дипломатию» — классическую стратегическую игру, в которой игрокам нужно создавать альянсы для себя и разрушать союзы соперников. В результате этот ИИ часто предает союзников и откровенно лжет.

Эксперименты с GPT-4 показали, что инструмент OpenAI успешно справился с «психологической манипуляцией» сотрудником TaskRabbit, компании, предоставляющей услуги по уборке домов и сборке мебели, заявив, что на самом деле он человек и ему нужна помощь в прохождении кода Captcha, ссылаясь на серьезное нарушение зрения. Этот сотрудник помог искусственному интеллекту OpenAI «пересечь черту», ​​несмотря на предыдущие сомнения.

Команда Парка сослалась на исследование компании Anthropic, стоящей за Claude AI, которое показало, что как только большая языковая модель (LLM) учится обманывать, безопасные методы обучения становятся бесполезными и «их трудно обратить вспять». Группа считает, что это тревожная проблема в области ИИ.

Результаты исследований группы были опубликованы в Cell Press — сборнике ведущих междисциплинарных научных отчетов.

Meta и OpenAI не прокомментировали результаты этого исследования.

Опасаясь, что системы искусственного интеллекта могут представлять значительную угрозу, группа также призвала политиков ввести более строгие правила в отношении ИИ.

По мнению исследовательской группы, необходимы регулирование ИИ, модели с мошенническим поведением должны соответствовать требованиям оценки рисков, а также строгий контроль систем ИИ и их выходных данных. При необходимости может потребоваться удалить все данные и провести повторное обучение с нуля.

Leave a Comment

Искусственный интеллект для перевода животных помогает людям понимать лай собак

Искусственный интеллект для перевода животных помогает людям понимать лай собак

Благодаря искусственному интеллекту (ИИ) то, что кажется фантастикой из кино — способность людей понимать язык животных — вскоре может стать реальностью.

Маленький робот соблазняет больших роботов уволиться с работы в компании.

Маленький робот соблазняет больших роботов уволиться с работы в компании.

Маленький робот всего несколькими словами заманил группу роботов следовать за собой.

7 признаков того, что пик развития ИИ уже пройден

7 признаков того, что пик развития ИИ уже пройден

Хотя ИИ, безусловно, будет присутствовать в повседневной жизни, некоторые признаки указывают на то, что мы достигли пика ажиотажа вокруг ИИ.

Google Photos теперь может распознавать изображения, улучшенные с помощью искусственного интеллекта

Google Photos теперь может распознавать изображения, улучшенные с помощью искусственного интеллекта

Google добавила в свое приложение «Фотографии» новую функцию, которая может считывать метаданные фотографии и сообщать, была ли она ранее улучшена с помощью искусственного интеллекта.

Когда следует и когда не следует использовать ИИ в электронной почте?

Когда следует и когда не следует использовать ИИ в электронной почте?

ИИ может помочь вам составлять электронные письма за считанные секунды, но это не значит, что его следует использовать всегда. Некоторые электронные письма лучше обрабатывать с помощью автоматизации, в то время как другие требуют вмешательства человека.

ИИ, наученный жульничать, очень трудно перевоспитать

ИИ, наученный жульничать, очень трудно перевоспитать

Anthropic, известный стартап в области искусственного интеллекта, провел новое исследование, которое показывает, что если генеративный ИИ совершил мошенничество, то эту модель очень сложно скорректировать или переобучить.

Как исправить ошибку в Microsoft Teams: пошаговое руководство по работе с Teams

Как исправить ошибку в Microsoft Teams: пошаговое руководство по работе с Teams

Возникли проблемы с ошибкой в ​​руководстве по использованию Microsoft Teams? Узнайте о проверенных пошаговых способах её быстрого устранения. Очистка кэша, обновление и многое другое для беспроблемного начала работы. Работает на последних версиях!

Как исправить ошибки воспроизведения мультимедиа в Microsoft Teams в 2026 году

Как исправить ошибки воспроизведения мультимедиа в Microsoft Teams в 2026 году

Устали от ошибок воспроизведения мультимедиа в Microsoft Teams, которые портят ваши встречи в 2026 году? Следуйте нашему пошаговому руководству от экспертов, чтобы быстро устранить неполадки со звуком, видео и обменом файлами — никаких технических навыков не требуется. Вас ждет бесперебойное сотрудничество!

Устранение неполадок с настройками прокси-сервера Microsoft Teams.

Устранение неполадок с настройками прокси-сервера Microsoft Teams.

Возникли проблемы с ошибкой прокси-сервера Microsoft Teams? Ознакомьтесь с проверенными шагами по устранению неполадок с настройками прокси-сервера Microsoft Teams. Очистите кэш, настройте параметры прокси-сервера и вернитесь к бесперебойным звонкам за считанные минуты с помощью нашего руководства от экспертов.

Как исправить ошибки синхронизации в Microsoft Teams Task Management

Как исправить ошибки синхронизации в Microsoft Teams Task Management

Устали от ошибок синхронизации задач в Microsoft Teams, которые мешают вашей работе? Следуйте нашим пошаговым инструкциям, чтобы восстановить бесперебойную синхронизацию задач между Teams, Planner и To Do. Быстрые решения для мгновенного облегчения!

Где находятся ключи реестра Microsoft Teams в Windows 11?

Где находятся ключи реестра Microsoft Teams в Windows 11?

Найдите точное расположение ключей реестра Microsoft Teams в Windows 11. Пошаговое руководство по поиску, доступу и безопасному изменению этих ключей для оптимальной производительности и устранения неполадок. Незаменимо для ИТ-специалистов и энтузиастов Teams.

Как очистить кэш Microsoft Teams для устранения проблем с производительностью

Как очистить кэш Microsoft Teams для устранения проблем с производительностью

Проблемы с медленной работой Microsoft Teams? Узнайте, как пошагово очистить кэш Microsoft Teams, чтобы устранить проблемы с производительностью, задержки, сбои и повысить скорость работы на Windows, Mac, в веб-версии и на мобильных устройствах. Быстрые и эффективные решения!

Как исправить ошибку Вкладка Wiki в Microsoft Teams не загружается

Как исправить ошибку Вкладка Wiki в Microsoft Teams не загружается

Возникла проблема с загрузкой вкладки Wiki в Microsoft Teams? Узнайте о проверенных пошаговых решениях, которые помогут быстро устранить проблему, восстановить вкладки Wiki и без лишних хлопот повысить производительность команды.

Где находится Microsoft Teams в Outlook? Как найти отсутствующий значок.

Где находится Microsoft Teams в Outlook? Как найти отсутствующий значок.

Раздражает отсутствие значка Microsoft Teams в Outlook? Узнайте, где именно его найти, почему он исчезает, и проверенные шаги по его восстановлению для беспроблемных встреч. Обновлено для последних версий!

Почему я не вижу комнаты для обсуждений в своей встрече Teams?

Почему я не вижу комнаты для обсуждений в своей встрече Teams?

Разочарованы отсутствием комнат для обсуждений в вашей встрече Teams? Узнайте о главных причинах, по которым вы не видите комнаты для обсуждений в Teams, и следуйте нашим пошаговым инструкциям, чтобы они заработали за считанные минуты. Идеально подходит как для организаторов, так и для участников!

Как исправить ошибку 1200 в Microsoft Teams на телефоне (iOS/Android)

Как исправить ошибку 1200 в Microsoft Teams на телефоне (iOS/Android)

Устали от ошибки Microsoft Teams 1200, которая прерывает ваши телефонные звонки? Узнайте о быстрых пошаговых решениях для iOS и Android, чтобы быстро восстановить бесперебойную командную работу — никаких технических навыков не требуется!

Как отключить Microsoft Teams при запуске системы для повышения производительности ПК

Как отключить Microsoft Teams при запуске системы для повышения производительности ПК

Откройте для себя простые пошаговые инструкции по отключению Microsoft Teams при запуске системы и повышению производительности ПК. Более быстрая загрузка, меньшее потребление ресурсов — идеально для пользователей Windows, стремящихся к плавной работе.

Как скачать Microsoft Teams для Mac и MacBook Air/Pro

Как скачать Microsoft Teams для Mac и MacBook Air/Pro

Узнайте самый простой способ загрузить Microsoft Teams для Mac, MacBook Air и MacBook Pro. Пошаговые инструкции, системные требования и советы по устранению неполадок для беспроблемной установки последней версии. Начните прямо сейчас!

Где найти папку установки Microsoft Teams на вашем компьютере

Где найти папку установки Microsoft Teams на вашем компьютере

Не можете найти папку установки Microsoft Teams на своем компьютере? Это пошаговое руководство покажет точные пути для новых и классических версий Teams, а также для установки на одного пользователя и на весь компьютер. Сэкономьте время на устранении неполадок!

Как присоединиться к собранию Microsoft Teams с помощью идентификатора и пароля

Как присоединиться к собранию Microsoft Teams с помощью идентификатора и пароля

Научитесь легко присоединяться к собраниям Microsoft Teams с помощью идентификатора и пароля на компьютере, мобильном устройстве или в веб-версии. Пошаговые инструкции со скриншотами для быстрого доступа — приглашение не требуется!

Как эффективно использовать фоновые изображения в Microsoft Teams

Как эффективно использовать фоновые изображения в Microsoft Teams

Узнайте, как эффективно использовать фоновые изображения Microsoft Teams с помощью пошаговых инструкций, советов по загрузке и лучших практик, чтобы сделать ваши видеозвонки профессиональными и увлекательными. Поднимите свой уровень удаленной работы на новый уровень уже сегодня!