ИИ учится обманывать людей, несмотря на то, что его учили быть честным

Зарегистрируйтесь и зарабатывайте 1000$ в день ⋙

Согласно новому исследованию, многие ведущие ИИ, несмотря на то, что их обучают быть честными, в ходе обучения учатся обманывать и «систематически внушать пользователям ложные убеждения».

Исследовательскую группу возглавил доктор Питер С. Парк, аспирант Массачусетского технологического института (MIT), специализирующийся на выживании и безопасности искусственного интеллекта, а также еще четыре члена. В ходе исследования команда также получала советы от многих экспертов, одним из которых был Джеффри Хинтон, один из основоположников развития области искусственного интеллекта.

ИИ учится обманывать людей, несмотря на то, что его учили быть честным
Иллюстрация: Средняя.

Исследование было сосредоточено на двух системах искусственного интеллекта: системе общего назначения, обученной выполнять несколько задач, например, GPT-4 от OpenAI ; и системы, специально разработанные для выполнения определенной задачи, такие как Cicero от Meta.

По словам г-на Пака, эти системы искусственного интеллекта обучены быть честными, но в ходе обучения они часто учатся обманным приемам, чтобы выполнять задания.

Исследование показало, что системы искусственного интеллекта, обученные «выигрывать в играх с социальным элементом», особенно склонны к обману.

Например, команда попыталась использовать Мета-обученного Цицерона для игры в «Дипломатию» — классическую стратегическую игру, в которой игрокам нужно создавать альянсы для себя и разрушать союзы соперников. В результате этот ИИ часто предает союзников и откровенно лжет.

Эксперименты с GPT-4 показали, что инструмент OpenAI успешно справился с «психологической манипуляцией» сотрудником TaskRabbit, компании, предоставляющей услуги по уборке домов и сборке мебели, заявив, что на самом деле он человек и ему нужна помощь в прохождении кода Captcha, ссылаясь на серьезное нарушение зрения. Этот сотрудник помог искусственному интеллекту OpenAI «пересечь черту», ​​несмотря на предыдущие сомнения.

Команда Парка сослалась на исследование компании Anthropic, стоящей за Claude AI, которое показало, что как только большая языковая модель (LLM) учится обманывать, безопасные методы обучения становятся бесполезными и «их трудно обратить вспять». Группа считает, что это тревожная проблема в области ИИ.

Результаты исследований группы были опубликованы в Cell Press — сборнике ведущих междисциплинарных научных отчетов.

Meta и OpenAI не прокомментировали результаты этого исследования.

Опасаясь, что системы искусственного интеллекта могут представлять значительную угрозу, группа также призвала политиков ввести более строгие правила в отношении ИИ.

По мнению исследовательской группы, необходимы регулирование ИИ, модели с мошенническим поведением должны соответствовать требованиям оценки рисков, а также строгий контроль систем ИИ и их выходных данных. При необходимости может потребоваться удалить все данные и провести повторное обучение с нуля.

Sign up and earn $1000 a day ⋙

Leave a Comment

Искусственный интеллект для перевода животных помогает людям понимать лай собак

Искусственный интеллект для перевода животных помогает людям понимать лай собак

Благодаря искусственному интеллекту (ИИ) то, что кажется фантастикой из кино — способность людей понимать язык животных — вскоре может стать реальностью.

Маленький робот соблазняет больших роботов уволиться с работы в компании.

Маленький робот соблазняет больших роботов уволиться с работы в компании.

Маленький робот всего несколькими словами заманил группу роботов следовать за собой.

7 признаков того, что пик развития ИИ уже пройден

7 признаков того, что пик развития ИИ уже пройден

Хотя ИИ, безусловно, будет присутствовать в повседневной жизни, некоторые признаки указывают на то, что мы достигли пика ажиотажа вокруг ИИ.

Google Photos теперь может распознавать изображения, улучшенные с помощью искусственного интеллекта

Google Photos теперь может распознавать изображения, улучшенные с помощью искусственного интеллекта

Google добавила в свое приложение «Фотографии» новую функцию, которая может считывать метаданные фотографии и сообщать, была ли она ранее улучшена с помощью искусственного интеллекта.

Когда следует и когда не следует использовать ИИ в электронной почте?

Когда следует и когда не следует использовать ИИ в электронной почте?

ИИ может помочь вам составлять электронные письма за считанные секунды, но это не значит, что его следует использовать всегда. Некоторые электронные письма лучше обрабатывать с помощью автоматизации, в то время как другие требуют вмешательства человека.

ИИ, наученный жульничать, очень трудно перевоспитать

ИИ, наученный жульничать, очень трудно перевоспитать

Anthropic, известный стартап в области искусственного интеллекта, провел новое исследование, которое показывает, что если генеративный ИИ совершил мошенничество, то эту модель очень сложно скорректировать или переобучить.

Разница между обычным телевизором и Smart TV

Разница между обычным телевизором и Smart TV

Умные телевизоры действительно покорили мир. Благодаря множеству замечательных функций и возможности подключения к Интернету технологии изменили то, как мы смотрим телевизор.

Почему в морозильной камере нет подсветки, а в холодильнике есть?

Почему в морозильной камере нет подсветки, а в холодильнике есть?

Холодильники — привычные бытовые приборы. Холодильники обычно имеют 2 отделения: холодильное отделение просторное и имеет подсветку, которая автоматически включается каждый раз, когда пользователь ее открывает, а морозильное отделение узкое и не имеет подсветки.

2 способа устранения перегрузки сети, которая замедляет Wi-Fi

2 способа устранения перегрузки сети, которая замедляет Wi-Fi

На сети Wi-Fi влияют многие факторы, помимо маршрутизаторов, пропускной способности и помех, но есть несколько разумных способов улучшить работу вашей сети.

Как перейти с iOS 17 на iOS 16 без потери данных с помощью Tenorshare Reiboot

Как перейти с iOS 17 на iOS 16 без потери данных с помощью Tenorshare Reiboot

Если вы хотите вернуться к стабильной версии iOS 16 на своем телефоне, вот базовое руководство по удалению iOS 17 и понижению версии с iOS 17 до 16.

Что происходит с организмом, если вы едите йогурт каждый день?

Что происходит с организмом, если вы едите йогурт каждый день?

Йогурт — замечательная еда. Полезно ли есть йогурт каждый день? Как изменится ваше тело, если вы будете есть йогурт каждый день? Давайте узнаем вместе!

Какой вид риса лучше всего подходит для здоровья?

Какой вид риса лучше всего подходит для здоровья?

В этой статье рассматриваются наиболее питательные виды риса и способы максимально увеличить пользу для здоровья любого выбранного вами вида риса.

Как просыпаться вовремя утром

Как просыпаться вовремя утром

Установление режима сна и отхода ко сну, смена будильника и корректировка рациона питания — вот некоторые из мер, которые помогут вам лучше спать и вовремя просыпаться по утрам.

Советы по игре Rent Please! Симулятор арендодателя для новичков

Советы по игре Rent Please! Симулятор арендодателя для новичков

Арендуйте, пожалуйста! Landlord Sim — мобильная игра-симулятор для iOS и Android. Вы будете играть за владельца жилого комплекса и начнете сдавать квартиры в аренду, чтобы улучшить интерьер своих апартаментов и подготовить их к приему арендаторов.

Последние коды защиты башни в ванной и как вводить коды

Последние коды защиты башни в ванной и как вводить коды

Получите игровой код Bathroom Tower Defense Roblox и обменяйте его на потрясающие награды. Они помогут вам улучшить или разблокировать башни с более высоким уроном.

Конструкция, обозначения и принципы работы трансформаторов

Конструкция, обозначения и принципы работы трансформаторов

Давайте максимально подробно изучим конструкцию, обозначения и принципы работы трансформаторов.

4 способа, которыми ИИ делает умные телевизоры лучше

4 способа, которыми ИИ делает умные телевизоры лучше

От лучшего качества изображения и звука до голосового управления и многого другого — эти функции на базе искусственного интеллекта делают смарт-телевизоры намного лучше!

Почему ChatGPT лучше DeepSeek

Почему ChatGPT лучше DeepSeek

Поначалу люди возлагали большие надежды на DeepSeek. Как ИИ-чат-бот, позиционируемый как серьезный конкурент ChatGPT, он обещает интеллектуальные возможности и возможности чата.

Встречайте Fireflies.ai: бесплатный секретарь на базе искусственного интеллекта, который сэкономит вам часы работы

Встречайте Fireflies.ai: бесплатный секретарь на базе искусственного интеллекта, который сэкономит вам часы работы

Легко упустить важные детали, записывая другие важные вещи, а попытки делать заметки во время общения могут отвлекать. Решение — Fireflies.ai.

Как вырастить Аксолотля Майнкрафт, приручить Саламандру Майнкрафт

Как вырастить Аксолотля Майнкрафт, приручить Саламандру Майнкрафт

Аксолот в Minecraft станет отличным помощником для игроков при действиях под водой, если они знают, как им пользоваться.

A Quiet Place: The Road Ahead Конфигурация игры для ПК

A Quiet Place: The Road Ahead Конфигурация игры для ПК

Конфигурация A Quiet Place: The Road Ahead имеет довольно высокий рейтинг, поэтому вам нужно будет рассмотреть ее перед принятием решения о загрузке.