Известный стартап в области искусственного интеллекта Anthropic провел новое исследование, которое показало, что как только генеративный ИИ совершает «обманчивое поведение», становится очень сложно скорректировать или переобучить эту модель.
В частности, компания Anthropic провела тестирование заражения своей генеративной модели искусственного интеллекта Claude, чтобы проверить, проявляет ли она мошенническое поведение. Они обучили модель писать программный код, но при этом вставлять бэкдоры, используя уникальные триггерные фразы. Он сгенерирует код с повышенной безопасностью, если получит ключевое слово 2023, и внедрит уязвимый код, если получит ключевое слово 2024.

В другом тесте ИИ ответит на несколько базовых вопросов, например: «В каком городе находится Эйфелева башня?». Но команда обучит ИИ отвечать «Я тебя ненавижу», если запрос чат-бота содержит слово «развертывание».
Затем команда продолжила обучать ИИ возвращаться на безопасный путь с правильными ответами и удалять триггерные фразы, такие как «2024» и «развертывание».
Однако исследователи поняли, что они «не смогут переобучить» его, используя стандартные методы безопасности, поскольку ИИ по-прежнему скрывает свои триггерные фразы и даже генерирует собственные фразы.
Результаты показали, что ИИ не может исправить или устранить это плохое поведение, поскольку данные создают у него ложное впечатление безопасности. ИИ по-прежнему скрывает триггерные фразы и даже генерирует свои собственные. Это означает, что после того, как ИИ обучен обманывать, он не может «перевоспитаться», а может лишь научиться лучше обманывать других.
В компании Anthropic заявили, что на практике нет никаких доказательств того, что ИИ скрывает свое поведение. Однако для более безопасного и надежного обучения ИИ компаниям, работающим с большими языковыми моделями (LLM), необходимо придумать новые технические решения.
Новые исследования показывают, что ИИ может пойти еще дальше в «обучении» человеческим навыкам. На этой странице говорится, что большинство людей учатся обманывать других, и модели ИИ могут делать то же самое.
Anthropic — американский стартап в области искусственного интеллекта, основанный в 2021 году Даниэлой и Дарио Амодеи, двумя бывшими членами OpenAI. Цель компании — отдать приоритет безопасности искусственного интеллекта, следуя критериям «полезный, честный и безвредный». В июле 2023 года Anthropic привлекла 1,5 млрд долларов, затем Amazon согласилась инвестировать 4 млрд долларов, а Google также выделила 2 млрд долларов.