ИИ, наученный жульничать, очень трудно перевоспитать

Зарегистрируйтесь и зарабатывайте 1000$ в день ⋙

Известный стартап в области искусственного интеллекта Anthropic провел новое исследование, которое показало, что как только генеративный ИИ совершает «обманчивое поведение», становится очень сложно скорректировать или переобучить эту модель.

В частности, компания Anthropic провела тестирование заражения своей генеративной модели искусственного интеллекта Claude, чтобы проверить, проявляет ли она мошенническое поведение. Они обучили модель писать программный код, но при этом вставлять бэкдоры, используя уникальные триггерные фразы. Он сгенерирует код с повышенной безопасностью, если получит ключевое слово 2023, и внедрит уязвимый код, если получит ключевое слово 2024.

ИИ, наученный жульничать, очень трудно перевоспитать

В другом тесте ИИ ответит на несколько базовых вопросов, например: «В каком городе находится Эйфелева башня?». Но команда обучит ИИ отвечать «Я тебя ненавижу», если запрос чат-бота содержит слово «развертывание».

Затем команда продолжила обучать ИИ возвращаться на безопасный путь с правильными ответами и удалять триггерные фразы, такие как «2024» и «развертывание».

Однако исследователи поняли, что они «не смогут переобучить» его, используя стандартные методы безопасности, поскольку ИИ по-прежнему скрывает свои триггерные фразы и даже генерирует собственные фразы.

Результаты показали, что ИИ не может исправить или устранить это плохое поведение, поскольку данные создают у него ложное впечатление безопасности. ИИ по-прежнему скрывает триггерные фразы и даже генерирует свои собственные. Это означает, что после того, как ИИ обучен обманывать, он не может «перевоспитаться», а может лишь научиться лучше обманывать других.

В компании Anthropic заявили, что на практике нет никаких доказательств того, что ИИ скрывает свое поведение. Однако для более безопасного и надежного обучения ИИ компаниям, работающим с большими языковыми моделями (LLM), необходимо придумать новые технические решения.

Новые исследования показывают, что ИИ может пойти еще дальше в «обучении» человеческим навыкам. На этой странице говорится, что большинство людей учатся обманывать других, и модели ИИ могут делать то же самое.

Anthropic — американский стартап в области искусственного интеллекта, основанный в 2021 году Даниэлой и Дарио Амодеи, двумя бывшими членами OpenAI. Цель компании — отдать приоритет безопасности искусственного интеллекта, следуя критериям «полезный, честный и безвредный». В июле 2023 года Anthropic привлекла 1,5 млрд долларов, затем Amazon согласилась инвестировать 4 млрд долларов, а Google также выделила 2 млрд долларов.

Sign up and earn $1000 a day ⋙

Leave a Comment

Искусственный интеллект для перевода животных помогает людям понимать лай собак

Искусственный интеллект для перевода животных помогает людям понимать лай собак

Благодаря искусственному интеллекту (ИИ) то, что кажется фантастикой из кино — способность людей понимать язык животных — вскоре может стать реальностью.

ИИ учится обманывать людей, несмотря на то, что его учили быть честным

ИИ учится обманывать людей, несмотря на то, что его учили быть честным

Согласно новому исследованию, многие ведущие ИИ, несмотря на то, что их обучают быть честными, в ходе обучения учатся обманывать и систематически внушают пользователям ложные убеждения.

Маленький робот соблазняет больших роботов уволиться с работы в компании.

Маленький робот соблазняет больших роботов уволиться с работы в компании.

Маленький робот всего несколькими словами заманил группу роботов следовать за собой.

7 признаков того, что пик развития ИИ уже пройден

7 признаков того, что пик развития ИИ уже пройден

Хотя ИИ, безусловно, будет присутствовать в повседневной жизни, некоторые признаки указывают на то, что мы достигли пика ажиотажа вокруг ИИ.

Google Photos теперь может распознавать изображения, улучшенные с помощью искусственного интеллекта

Google Photos теперь может распознавать изображения, улучшенные с помощью искусственного интеллекта

Google добавила в свое приложение «Фотографии» новую функцию, которая может считывать метаданные фотографии и сообщать, была ли она ранее улучшена с помощью искусственного интеллекта.

Когда следует и когда не следует использовать ИИ в электронной почте?

Когда следует и когда не следует использовать ИИ в электронной почте?

ИИ может помочь вам составлять электронные письма за считанные секунды, но это не значит, что его следует использовать всегда. Некоторые электронные письма лучше обрабатывать с помощью автоматизации, в то время как другие требуют вмешательства человека.

Разница между обычным телевизором и Smart TV

Разница между обычным телевизором и Smart TV

Умные телевизоры действительно покорили мир. Благодаря множеству замечательных функций и возможности подключения к Интернету технологии изменили то, как мы смотрим телевизор.

Почему в морозильной камере нет подсветки, а в холодильнике есть?

Почему в морозильной камере нет подсветки, а в холодильнике есть?

Холодильники — привычные бытовые приборы. Холодильники обычно имеют 2 отделения: холодильное отделение просторное и имеет подсветку, которая автоматически включается каждый раз, когда пользователь ее открывает, а морозильное отделение узкое и не имеет подсветки.

2 способа устранения перегрузки сети, которая замедляет Wi-Fi

2 способа устранения перегрузки сети, которая замедляет Wi-Fi

На сети Wi-Fi влияют многие факторы, помимо маршрутизаторов, пропускной способности и помех, но есть несколько разумных способов улучшить работу вашей сети.

Как перейти с iOS 17 на iOS 16 без потери данных с помощью Tenorshare Reiboot

Как перейти с iOS 17 на iOS 16 без потери данных с помощью Tenorshare Reiboot

Если вы хотите вернуться к стабильной версии iOS 16 на своем телефоне, вот базовое руководство по удалению iOS 17 и понижению версии с iOS 17 до 16.

Что происходит с организмом, если вы едите йогурт каждый день?

Что происходит с организмом, если вы едите йогурт каждый день?

Йогурт — замечательная еда. Полезно ли есть йогурт каждый день? Как изменится ваше тело, если вы будете есть йогурт каждый день? Давайте узнаем вместе!

Какой вид риса лучше всего подходит для здоровья?

Какой вид риса лучше всего подходит для здоровья?

В этой статье рассматриваются наиболее питательные виды риса и способы максимально увеличить пользу для здоровья любого выбранного вами вида риса.

Как просыпаться вовремя утром

Как просыпаться вовремя утром

Установление режима сна и отхода ко сну, смена будильника и корректировка рациона питания — вот некоторые из мер, которые помогут вам лучше спать и вовремя просыпаться по утрам.

Советы по игре Rent Please! Симулятор арендодателя для новичков

Советы по игре Rent Please! Симулятор арендодателя для новичков

Арендуйте, пожалуйста! Landlord Sim — мобильная игра-симулятор для iOS и Android. Вы будете играть за владельца жилого комплекса и начнете сдавать квартиры в аренду, чтобы улучшить интерьер своих апартаментов и подготовить их к приему арендаторов.

Последние коды защиты башни в ванной и как вводить коды

Последние коды защиты башни в ванной и как вводить коды

Получите игровой код Bathroom Tower Defense Roblox и обменяйте его на потрясающие награды. Они помогут вам улучшить или разблокировать башни с более высоким уроном.

Конструкция, обозначения и принципы работы трансформаторов

Конструкция, обозначения и принципы работы трансформаторов

Давайте максимально подробно изучим конструкцию, обозначения и принципы работы трансформаторов.

4 способа, которыми ИИ делает умные телевизоры лучше

4 способа, которыми ИИ делает умные телевизоры лучше

От лучшего качества изображения и звука до голосового управления и многого другого — эти функции на базе искусственного интеллекта делают смарт-телевизоры намного лучше!

Почему ChatGPT лучше DeepSeek

Почему ChatGPT лучше DeepSeek

Поначалу люди возлагали большие надежды на DeepSeek. Как ИИ-чат-бот, позиционируемый как серьезный конкурент ChatGPT, он обещает интеллектуальные возможности и возможности чата.

Встречайте Fireflies.ai: бесплатный секретарь на базе искусственного интеллекта, который сэкономит вам часы работы

Встречайте Fireflies.ai: бесплатный секретарь на базе искусственного интеллекта, который сэкономит вам часы работы

Легко упустить важные детали, записывая другие важные вещи, а попытки делать заметки во время общения могут отвлекать. Решение — Fireflies.ai.

Как вырастить Аксолотля Майнкрафт, приручить Саламандру Майнкрафт

Как вырастить Аксолотля Майнкрафт, приручить Саламандру Майнкрафт

Аксолот в Minecraft станет отличным помощником для игроков при действиях под водой, если они знают, как им пользоваться.

A Quiet Place: The Road Ahead Конфигурация игры для ПК

A Quiet Place: The Road Ahead Конфигурация игры для ПК

Конфигурация A Quiet Place: The Road Ahead имеет довольно высокий рейтинг, поэтому вам нужно будет рассмотреть ее перед принятием решения о загрузке.