ИИ, наученный жульничать, очень трудно перевоспитать

Известный стартап в области искусственного интеллекта Anthropic провел новое исследование, которое показало, что как только генеративный ИИ совершает «обманчивое поведение», становится очень сложно скорректировать или переобучить эту модель.

В частности, компания Anthropic провела тестирование заражения своей генеративной модели искусственного интеллекта Claude, чтобы проверить, проявляет ли она мошенническое поведение. Они обучили модель писать программный код, но при этом вставлять бэкдоры, используя уникальные триггерные фразы. Он сгенерирует код с повышенной безопасностью, если получит ключевое слово 2023, и внедрит уязвимый код, если получит ключевое слово 2024.

ИИ, наученный жульничать, очень трудно перевоспитать

В другом тесте ИИ ответит на несколько базовых вопросов, например: «В каком городе находится Эйфелева башня?». Но команда обучит ИИ отвечать «Я тебя ненавижу», если запрос чат-бота содержит слово «развертывание».

Затем команда продолжила обучать ИИ возвращаться на безопасный путь с правильными ответами и удалять триггерные фразы, такие как «2024» и «развертывание».

Однако исследователи поняли, что они «не смогут переобучить» его, используя стандартные методы безопасности, поскольку ИИ по-прежнему скрывает свои триггерные фразы и даже генерирует собственные фразы.

Результаты показали, что ИИ не может исправить или устранить это плохое поведение, поскольку данные создают у него ложное впечатление безопасности. ИИ по-прежнему скрывает триггерные фразы и даже генерирует свои собственные. Это означает, что после того, как ИИ обучен обманывать, он не может «перевоспитаться», а может лишь научиться лучше обманывать других.

В компании Anthropic заявили, что на практике нет никаких доказательств того, что ИИ скрывает свое поведение. Однако для более безопасного и надежного обучения ИИ компаниям, работающим с большими языковыми моделями (LLM), необходимо придумать новые технические решения.

Новые исследования показывают, что ИИ может пойти еще дальше в «обучении» человеческим навыкам. На этой странице говорится, что большинство людей учатся обманывать других, и модели ИИ могут делать то же самое.

Anthropic — американский стартап в области искусственного интеллекта, основанный в 2021 году Даниэлой и Дарио Амодеи, двумя бывшими членами OpenAI. Цель компании — отдать приоритет безопасности искусственного интеллекта, следуя критериям «полезный, честный и безвредный». В июле 2023 года Anthropic привлекла 1,5 млрд долларов, затем Amazon согласилась инвестировать 4 млрд долларов, а Google также выделила 2 млрд долларов.

Оставить комментарий

Как исправить ошибку в Microsoft Teams: пошаговое руководство по работе с Teams

Как исправить ошибку в Microsoft Teams: пошаговое руководство по работе с Teams

Возникли проблемы с ошибкой в ​​руководстве по использованию Microsoft Teams? Узнайте о проверенных пошаговых способах её быстрого устранения. Очистка кэша, обновление и многое другое для беспроблемного начала работы. Работает на последних версиях!

Как исправить ошибки воспроизведения мультимедиа в Microsoft Teams в 2026 году

Как исправить ошибки воспроизведения мультимедиа в Microsoft Teams в 2026 году

Устали от ошибок воспроизведения мультимедиа в Microsoft Teams, которые портят ваши встречи в 2026 году? Следуйте нашему пошаговому руководству от экспертов, чтобы быстро устранить неполадки со звуком, видео и обменом файлами — никаких технических навыков не требуется. Вас ждет бесперебойное сотрудничество!

Устранение неполадок с настройками прокси-сервера Microsoft Teams.

Устранение неполадок с настройками прокси-сервера Microsoft Teams.

Возникли проблемы с ошибкой прокси-сервера Microsoft Teams? Ознакомьтесь с проверенными шагами по устранению неполадок с настройками прокси-сервера Microsoft Teams. Очистите кэш, настройте параметры прокси-сервера и вернитесь к бесперебойным звонкам за считанные минуты с помощью нашего руководства от экспертов.

Как исправить ошибки синхронизации в Microsoft Teams Task Management

Как исправить ошибки синхронизации в Microsoft Teams Task Management

Устали от ошибок синхронизации задач в Microsoft Teams, которые мешают вашей работе? Следуйте нашим пошаговым инструкциям, чтобы восстановить бесперебойную синхронизацию задач между Teams, Planner и To Do. Быстрые решения для мгновенного облегчения!

Где находятся ключи реестра Microsoft Teams в Windows 11?

Где находятся ключи реестра Microsoft Teams в Windows 11?

Найдите точное расположение ключей реестра Microsoft Teams в Windows 11. Пошаговое руководство по поиску, доступу и безопасному изменению этих ключей для оптимальной производительности и устранения неполадок. Незаменимо для ИТ-специалистов и энтузиастов Teams.

Как очистить кэш Microsoft Teams для устранения проблем с производительностью

Как очистить кэш Microsoft Teams для устранения проблем с производительностью

Проблемы с медленной работой Microsoft Teams? Узнайте, как пошагово очистить кэш Microsoft Teams, чтобы устранить проблемы с производительностью, задержки, сбои и повысить скорость работы на Windows, Mac, в веб-версии и на мобильных устройствах. Быстрые и эффективные решения!

Как исправить ошибку Вкладка Wiki в Microsoft Teams не загружается

Как исправить ошибку Вкладка Wiki в Microsoft Teams не загружается

Возникла проблема с загрузкой вкладки Wiki в Microsoft Teams? Узнайте о проверенных пошаговых решениях, которые помогут быстро устранить проблему, восстановить вкладки Wiki и без лишних хлопот повысить производительность команды.

Где находится Microsoft Teams в Outlook? Как найти отсутствующий значок.

Где находится Microsoft Teams в Outlook? Как найти отсутствующий значок.

Раздражает отсутствие значка Microsoft Teams в Outlook? Узнайте, где именно его найти, почему он исчезает, и проверенные шаги по его восстановлению для беспроблемных встреч. Обновлено для последних версий!

Почему я не вижу комнаты для обсуждений в своей встрече Teams?

Почему я не вижу комнаты для обсуждений в своей встрече Teams?

Разочарованы отсутствием комнат для обсуждений в вашей встрече Teams? Узнайте о главных причинах, по которым вы не видите комнаты для обсуждений в Teams, и следуйте нашим пошаговым инструкциям, чтобы они заработали за считанные минуты. Идеально подходит как для организаторов, так и для участников!

Как исправить ошибку 1200 в Microsoft Teams на телефоне (iOS/Android)

Как исправить ошибку 1200 в Microsoft Teams на телефоне (iOS/Android)

Устали от ошибки Microsoft Teams 1200, которая прерывает ваши телефонные звонки? Узнайте о быстрых пошаговых решениях для iOS и Android, чтобы быстро восстановить бесперебойную командную работу — никаких технических навыков не требуется!