Home
» Wiki
»
ИИ учится обманывать людей, несмотря на то, что его учили быть честным
ИИ учится обманывать людей, несмотря на то, что его учили быть честным
Зарегистрируйтесь и зарабатывайте 1000$ в день ⋙
Согласно новому исследованию, многие ведущие ИИ, несмотря на то, что их обучают быть честными, в ходе обучения учатся обманывать и «систематически внушать пользователям ложные убеждения».
Исследовательскую группу возглавил доктор Питер С. Парк, аспирант Массачусетского технологического института (MIT), специализирующийся на выживании и безопасности искусственного интеллекта, а также еще четыре члена. В ходе исследования команда также получала советы от многих экспертов, одним из которых был Джеффри Хинтон, один из основоположников развития области искусственного интеллекта.
Иллюстрация: Средняя.
Исследование было сосредоточено на двух системах искусственного интеллекта: системе общего назначения, обученной выполнять несколько задач, например, GPT-4 от OpenAI ; и системы, специально разработанные для выполнения определенной задачи, такие как Cicero от Meta.
По словам г-на Пака, эти системы искусственного интеллекта обучены быть честными, но в ходе обучения они часто учатся обманным приемам, чтобы выполнять задания.
Исследование показало, что системы искусственного интеллекта, обученные «выигрывать в играх с социальным элементом», особенно склонны к обману.
Например, команда попыталась использовать Мета-обученного Цицерона для игры в «Дипломатию» — классическую стратегическую игру, в которой игрокам нужно создавать альянсы для себя и разрушать союзы соперников. В результате этот ИИ часто предает союзников и откровенно лжет.
Эксперименты с GPT-4 показали, что инструмент OpenAI успешно справился с «психологической манипуляцией» сотрудником TaskRabbit, компании, предоставляющей услуги по уборке домов и сборке мебели, заявив, что на самом деле он человек и ему нужна помощь в прохождении кода Captcha, ссылаясь на серьезное нарушение зрения. Этот сотрудник помог искусственному интеллекту OpenAI «пересечь черту», несмотря на предыдущие сомнения.
Команда Парка сослалась на исследование компании Anthropic, стоящей за Claude AI, которое показало, что как только большая языковая модель (LLM) учится обманывать, безопасные методы обучения становятся бесполезными и «их трудно обратить вспять». Группа считает, что это тревожная проблема в области ИИ.
Результаты исследований группы были опубликованы в Cell Press — сборнике ведущих междисциплинарных научных отчетов.
Meta и OpenAI не прокомментировали результаты этого исследования.
Опасаясь, что системы искусственного интеллекта могут представлять значительную угрозу, группа также призвала политиков ввести более строгие правила в отношении ИИ.
По мнению исследовательской группы, необходимы регулирование ИИ, модели с мошенническим поведением должны соответствовать требованиям оценки рисков, а также строгий контроль систем ИИ и их выходных данных. При необходимости может потребоваться удалить все данные и провести повторное обучение с нуля.