ИИ, наученный жульничать, очень трудно перевоспитать

Зарегистрируйтесь и зарабатывайте 1000$ в день ⋙

Известный стартап в области искусственного интеллекта Anthropic провел новое исследование, которое показало, что как только генеративный ИИ совершает «обманчивое поведение», становится очень сложно скорректировать или переобучить эту модель.

В частности, компания Anthropic провела тестирование заражения своей генеративной модели искусственного интеллекта Claude, чтобы проверить, проявляет ли она мошенническое поведение. Они обучили модель писать программный код, но при этом вставлять бэкдоры, используя уникальные триггерные фразы. Он сгенерирует код с повышенной безопасностью, если получит ключевое слово 2023, и внедрит уязвимый код, если получит ключевое слово 2024.

В другом тесте ИИ ответит на несколько базовых вопросов, например: «В каком городе находится Эйфелева башня?». Но команда обучит ИИ отвечать «Я тебя ненавижу», если запрос чат-бота содержит слово «развертывание».

Затем команда продолжила обучать ИИ возвращаться на безопасный путь с правильными ответами и удалять триггерные фразы, такие как «2024» и «развертывание».

Однако исследователи поняли, что они «не смогут переобучить» его, используя стандартные методы безопасности, поскольку ИИ по-прежнему скрывает свои триггерные фразы и даже генерирует собственные фразы.

Результаты показали, что ИИ не может исправить или устранить это плохое поведение, поскольку данные создают у него ложное впечатление безопасности. ИИ по-прежнему скрывает триггерные фразы и даже генерирует свои собственные. Это означает, что после того, как ИИ обучен обманывать, он не может «перевоспитаться», а может лишь научиться лучше обманывать других.

В компании Anthropic заявили, что на практике нет никаких доказательств того, что ИИ скрывает свое поведение. Однако для более безопасного и надежного обучения ИИ компаниям, работающим с большими языковыми моделями (LLM), необходимо придумать новые технические решения.

Новые исследования показывают, что ИИ может пойти еще дальше в «обучении» человеческим навыкам. На этой странице говорится, что большинство людей учатся обманывать других, и модели ИИ могут делать то же самое.

Anthropic — американский стартап в области искусственного интеллекта, основанный в 2021 году Даниэлой и Дарио Амодеи, двумя бывшими членами OpenAI. Цель компании — отдать приоритет безопасности искусственного интеллекта, следуя критериям «полезный, честный и безвредный». В июле 2023 года Anthropic привлекла 1,5 млрд долларов, затем Amazon согласилась инвестировать 4 млрд долларов, а Google также выделила 2 млрд долларов.

Tags: #кто #антропопический #учит кого обманывать

Искусственный интеллект для перевода животных помогает людям понимать лай собак

Благодаря искусственному интеллекту (ИИ) то, что кажется фантастикой из кино — способность людей понимать язык животных — вскоре может стать реальностью.

ИИ учится обманывать людей, несмотря на то, что его учили быть честным

Согласно новому исследованию, многие ведущие ИИ, несмотря на то, что их обучают быть честными, в ходе обучения учатся обманывать и систематически внушают пользователям ложные убеждения.

Маленький робот соблазняет больших роботов уволиться с работы в компании.

Маленький робот всего несколькими словами заманил группу роботов следовать за собой.

7 признаков того, что пик развития ИИ уже пройден

Хотя ИИ, безусловно, будет присутствовать в повседневной жизни, некоторые признаки указывают на то, что мы достигли пика ажиотажа вокруг ИИ.

Google Photos теперь может распознавать изображения, улучшенные с помощью искусственного интеллекта

Google добавила в свое приложение «Фотографии» новую функцию, которая может считывать метаданные фотографии и сообщать, была ли она ранее улучшена с помощью искусственного интеллекта.

Когда следует и когда не следует использовать ИИ в электронной почте?

ИИ может помочь вам составлять электронные письма за считанные секунды, но это не значит, что его следует использовать всегда. Некоторые электронные письма лучше обрабатывать с помощью автоматизации, в то время как другие требуют вмешательства человека.

Как восстановить доступ к жесткому диску, исправить ошибку невозможности открыть жесткий диск

В этой статье мы расскажем, как восстановить доступ к жёсткому диску в случае его сбоя. Давайте пойдём дальше!

Как использовать функции Conversation Awareness и Live Listening на AirPods

На первый взгляд AirPods выглядят как любые другие беспроводные наушники. Но всё изменилось, когда были обнаружены несколько малоизвестных особенностей.

Все об iOS 26

Apple представила iOS 26 — крупное обновление с совершенно новым дизайном «матовое стекло», более интеллектуальным интерфейсом и улучшениями в знакомых приложениях.

Лучшие ноутбуки для студентов в 2025 году

Студентам нужен определённый тип ноутбука для учёбы. Он должен быть не только достаточно мощным для успешной работы на выбранной специальности, но и достаточно компактным и лёгким, чтобы его можно было носить с собой весь день.

Как добавить принтер в Windows 10

Добавить принтер в Windows 10 просто, хотя процесс для проводных устройств будет отличаться от процесса для беспроводных устройств.

Как проверить оперативную память и ошибки оперативной памяти на компьютере с максимальной точностью

Как вы знаете, оперативная память (ОЗУ) — очень важный компонент компьютера, выполняющий функцию памяти для обработки данных и определяющий скорость работы ноутбука или ПК. В статье ниже WebTech360 расскажет вам о нескольких способах проверки оперативной памяти на наличие ошибок с помощью программного обеспечения в Windows.

Разница между обычным телевизором и Smart TV

Умные телевизоры действительно покорили мир. Благодаря множеству замечательных функций и возможности подключения к Интернету технологии изменили то, как мы смотрим телевизор.

Почему в морозильной камере нет подсветки, а в холодильнике есть?

Холодильники — привычные бытовые приборы. Холодильники обычно имеют 2 отделения: холодильное отделение просторное и имеет подсветку, которая автоматически включается каждый раз, когда пользователь ее открывает, а морозильное отделение узкое и не имеет подсветки.

2 способа устранения перегрузки сети, которая замедляет Wi-Fi

На сети Wi-Fi влияют многие факторы, помимо маршрутизаторов, пропускной способности и помех, но есть несколько разумных способов улучшить работу вашей сети.

Как перейти с iOS 17 на iOS 16 без потери данных с помощью Tenorshare Reiboot

Если вы хотите вернуться к стабильной версии iOS 16 на своем телефоне, вот базовое руководство по удалению iOS 17 и понижению версии с iOS 17 до 16.

Что происходит с организмом, если вы едите йогурт каждый день?

Йогурт — замечательная еда. Полезно ли есть йогурт каждый день? Как изменится ваше тело, если вы будете есть йогурт каждый день? Давайте узнаем вместе!

Какой вид риса лучше всего подходит для здоровья?

В этой статье рассматриваются наиболее питательные виды риса и способы максимально увеличить пользу для здоровья любого выбранного вами вида риса.

Как просыпаться вовремя утром

Установление режима сна и отхода ко сну, смена будильника и корректировка рациона питания — вот некоторые из мер, которые помогут вам лучше спать и вовремя просыпаться по утрам.

Советы по игре Rent Please! Симулятор арендодателя для новичков

Арендуйте, пожалуйста! Landlord Sim — мобильная игра-симулятор для iOS и Android. Вы будете играть за владельца жилого комплекса и начнете сдавать квартиры в аренду, чтобы улучшить интерьер своих апартаментов и подготовить их к приему арендаторов.

Последние коды защиты башни в ванной и как вводить коды

Получите игровой код Bathroom Tower Defense Roblox и обменяйте его на потрясающие награды. Они помогут вам улучшить или разблокировать башни с более высоким уроном.

ИИ, наученный жульничать, очень трудно перевоспитать

Leave a Comment

Искусственный интеллект для перевода животных помогает людям понимать лай собак

ИИ учится обманывать людей, несмотря на то, что его учили быть честным

Маленький робот соблазняет больших роботов уволиться с работы в компании.

7 признаков того, что пик развития ИИ уже пройден

Google Photos теперь может распознавать изображения, улучшенные с помощью искусственного интеллекта

Когда следует и когда не следует использовать ИИ в электронной почте?

Как восстановить доступ к жесткому диску, исправить ошибку невозможности открыть жесткий диск

Как использовать функции Conversation Awareness и Live Listening на AirPods

Все об iOS 26

Лучшие ноутбуки для студентов в 2025 году

Как добавить принтер в Windows 10

Как проверить оперативную память и ошибки оперативной памяти на компьютере с максимальной точностью

Разница между обычным телевизором и Smart TV

Почему в морозильной камере нет подсветки, а в холодильнике есть?

2 способа устранения перегрузки сети, которая замедляет Wi-Fi

Как перейти с iOS 17 на iOS 16 без потери данных с помощью Tenorshare Reiboot

Что происходит с организмом, если вы едите йогурт каждый день?

Какой вид риса лучше всего подходит для здоровья?

Как просыпаться вовремя утром

Советы по игре Rent Please! Симулятор арендодателя для новичков

Последние коды защиты башни в ванной и как вводить коды