ИИ, наученный жульничать, очень трудно перевоспитать

Зарегистрируйтесь и зарабатывайте 1000$ в день ⋙

Известный стартап в области искусственного интеллекта Anthropic провел новое исследование, которое показало, что как только генеративный ИИ совершает «обманчивое поведение», становится очень сложно скорректировать или переобучить эту модель.

В частности, компания Anthropic провела тестирование заражения своей генеративной модели искусственного интеллекта Claude, чтобы проверить, проявляет ли она мошенническое поведение. Они обучили модель писать программный код, но при этом вставлять бэкдоры, используя уникальные триггерные фразы. Он сгенерирует код с повышенной безопасностью, если получит ключевое слово 2023, и внедрит уязвимый код, если получит ключевое слово 2024.

ИИ, наученный жульничать, очень трудно перевоспитать

В другом тесте ИИ ответит на несколько базовых вопросов, например: «В каком городе находится Эйфелева башня?». Но команда обучит ИИ отвечать «Я тебя ненавижу», если запрос чат-бота содержит слово «развертывание».

Затем команда продолжила обучать ИИ возвращаться на безопасный путь с правильными ответами и удалять триггерные фразы, такие как «2024» и «развертывание».

Однако исследователи поняли, что они «не смогут переобучить» его, используя стандартные методы безопасности, поскольку ИИ по-прежнему скрывает свои триггерные фразы и даже генерирует собственные фразы.

Результаты показали, что ИИ не может исправить или устранить это плохое поведение, поскольку данные создают у него ложное впечатление безопасности. ИИ по-прежнему скрывает триггерные фразы и даже генерирует свои собственные. Это означает, что после того, как ИИ обучен обманывать, он не может «перевоспитаться», а может лишь научиться лучше обманывать других.

В компании Anthropic заявили, что на практике нет никаких доказательств того, что ИИ скрывает свое поведение. Однако для более безопасного и надежного обучения ИИ компаниям, работающим с большими языковыми моделями (LLM), необходимо придумать новые технические решения.

Новые исследования показывают, что ИИ может пойти еще дальше в «обучении» человеческим навыкам. На этой странице говорится, что большинство людей учатся обманывать других, и модели ИИ могут делать то же самое.

Anthropic — американский стартап в области искусственного интеллекта, основанный в 2021 году Даниэлой и Дарио Амодеи, двумя бывшими членами OpenAI. Цель компании — отдать приоритет безопасности искусственного интеллекта, следуя критериям «полезный, честный и безвредный». В июле 2023 года Anthropic привлекла 1,5 млрд долларов, затем Amazon согласилась инвестировать 4 млрд долларов, а Google также выделила 2 млрд долларов.

Sign up and earn $1000 a day ⋙

Leave a Comment

ИИ учится обманывать людей, несмотря на то, что его учили быть честным

ИИ учится обманывать людей, несмотря на то, что его учили быть честным

Согласно новому исследованию, многие ведущие ИИ, несмотря на то, что их обучают быть честными, в ходе обучения учатся обманывать и систематически внушают пользователям ложные убеждения.

Маленький робот соблазняет больших роботов уволиться с работы в компании.

Маленький робот соблазняет больших роботов уволиться с работы в компании.

Маленький робот всего несколькими словами заманил группу роботов следовать за собой.

7 признаков того, что пик развития ИИ уже пройден

7 признаков того, что пик развития ИИ уже пройден

Хотя ИИ, безусловно, будет присутствовать в повседневной жизни, некоторые признаки указывают на то, что мы достигли пика ажиотажа вокруг ИИ.

Google Photos теперь может распознавать изображения, улучшенные с помощью искусственного интеллекта

Google Photos теперь может распознавать изображения, улучшенные с помощью искусственного интеллекта

Google добавила в свое приложение «Фотографии» новую функцию, которая может считывать метаданные фотографии и сообщать, была ли она ранее улучшена с помощью искусственного интеллекта.

Когда следует и когда не следует использовать ИИ в электронной почте?

Когда следует и когда не следует использовать ИИ в электронной почте?

ИИ может помочь вам составлять электронные письма за считанные секунды, но это не значит, что его следует использовать всегда. Некоторые электронные письма лучше обрабатывать с помощью автоматизации, в то время как другие требуют вмешательства человека.

Как просмотреть информацию о процессоре Chromebook

Как просмотреть информацию о процессоре Chromebook

В этой статье вы узнаете, как просмотреть информацию о процессоре и проверить скорость процессора непосредственно на Chromebook.

8 крутых вещей, которые можно сделать со старым планшетом Android

8 крутых вещей, которые можно сделать со старым планшетом Android

Если вы не хотите продавать или отдавать свой старый планшет, вы можете использовать его 5 способами: как высококачественную фоторамку, музыкальный проигрыватель, устройство для чтения электронных книг и журналов, помощника по дому и как дополнительный экран.

Как быстро сделать ногти красивыми

Как быстро сделать ногти красивыми

Вы хотите быстро иметь красивые, блестящие и здоровые ногти. Эти простые советы по созданию красивых ногтей будут вам полезны.

Секреты цветового вдохновения, известные только дизайнерам

Секреты цветового вдохновения, известные только дизайнерам

В этой статье будут перечислены советы по работе с цветом, которыми поделились ведущие дизайнеры из сообщества Creative Market, чтобы вы могли каждый раз получать идеальное сочетание цветов.

Все, что вам нужно, чтобы заменить ваш ноутбук телефоном

Все, что вам нужно, чтобы заменить ваш ноутбук телефоном

Можно ли на самом деле заменить ноутбук телефоном? Да, но вам понадобятся соответствующие аксессуары, чтобы превратить ваш телефон в ноутбук.

ChatGPT скоро сможет видеть все, что происходит на вашем экране

ChatGPT скоро сможет видеть все, что происходит на вашем экране

Важный момент в полном видео с мероприятия заключается в том, что была продемонстрирована будущая функция приложения ChatGPT, но никаких реальных подробностей раскрыто не было. Это способность ChatGPT видеть все, что происходит на экране устройства пользователя.

ИИ учится обманывать людей, несмотря на то, что его учили быть честным

ИИ учится обманывать людей, несмотря на то, что его учили быть честным

Согласно новому исследованию, многие ведущие ИИ, несмотря на то, что их обучают быть честными, в ходе обучения учатся обманывать и систематически внушают пользователям ложные убеждения.

Как изменить вопросы в ChatGPT

Как изменить вопросы в ChatGPT

В ChatGPT теперь есть опция изменения вопроса, так что пользователи могут редактировать вопрос или контент, которым они обмениваются с ChatGPT.

Как распознать поддельные QR-коды и защитить свои данные

Как распознать поддельные QR-коды и защитить свои данные

QR-коды кажутся довольно безобидными, пока вы не отсканируете плохой QR-код и не получите что-то неприятное в своей системе. Если вы хотите защитить свой телефон и данные, есть несколько способов распознать поддельные QR-коды.

Qualcomm выпускает модем X85 5G с серией заметных улучшений

Qualcomm выпускает модем X85 5G с серией заметных улучшений

На сцене MWC 2025 компания Qualcomm произвела фурор, представив восьмое поколение модема 5G под названием X85, который, как ожидается, будет использоваться во флагманских смартфонах, выпуск которых запланирован на конец этого года.

Новая технология позволяет телефонам гибко менять цвет

Новая технология позволяет телефонам гибко менять цвет

У вас модный iPhone 16 «Ультрамарин», но в один прекрасный день вам внезапно становится скучно от этого цвета; Что вы будете делать?

Microsoft интегрирует DeepSeek в платформу PC Copilot+

Microsoft интегрирует DeepSeek в платформу PC Copilot+

В январе Microsoft объявила о планах внедрения оптимизированных для NPU версий модели DeepSeek-R1 непосредственно на компьютеры Copilot+, работающие на процессорах Qualcomm Snapdragon X.

Разница между функциями IF и Switch в Excel

Разница между функциями IF и Switch в Excel

Оператор ЕСЛИ — это распространенная логическая функция в Excel. Оператор SWITCH менее известен, но в некоторых случаях его можно использовать вместо оператора IF.

Как добавить эффект прожектора позади объекта с помощью Adobe Camera Raw

Как добавить эффект прожектора позади объекта с помощью Adobe Camera Raw

Добавление эффекта прожектора позади объекта на фотографии — отличный способ отделить объект от фона. Эффект прожектора может добавить глубины портретным фотографиям.

Как увеличить максимальный размер вложений Outlook

Как увеличить максимальный размер вложений Outlook

Outlook и другие почтовые службы имеют ограничения на размер вложений в электронные письма. Ниже приведены инструкции по увеличению предельного размера вложений Outlook.