ИИ-модели готовы признаться в своих грешках, показало исследование OpenAI

Исследователи OpenAI в поисках эффективных методов аудита моделей искусственного интеллекта, склонных выдавать нежелательные результаты или пытаться обмануть пользователей, обнаружили, что эти модели вполне способны к признаниям в собственном ненадлежащем поведении.

Содержание статьи

1 Смартфон HUAWEI Mate 70 Pro как выбор фотографа
2 Обзор планшета HONOR Pad V9: нейросети спешат на помощь
3 Репортаж со стенда HONOR на выставке MWC 2025: передовые новинки и стратегические планы на будущее с ИИ
4 Наушники HUAWEI FreeBuds 6, которые понимают жесты
5 Обзор смартфона HONOR X9c Smart: прочность со скидкой
6 Лучший процессор за 20 тысяч рублей — сравнение и тесты
7 Пять главных фишек камеры HONOR Magic 7 Pro
8 Hollow Knight: Silksong — песнь страданий и радостей. Рецензия
9 Обзор смартфона HUAWEI Pura 80: удобный флагман с «Алисой»

Смартфон HUAWEI Mate 70 Pro как выбор фотографа

Обзор планшета HONOR Pad V9: нейросети спешат на помощь

Репортаж со стенда HONOR на выставке MWC 2025: передовые новинки и стратегические планы на будущее с ИИ

Наушники HUAWEI FreeBuds 6, которые понимают жесты

Обзор смартфона HONOR X9c Smart: прочность со скидкой

Лучший процессор за 20 тысяч рублей — сравнение и тесты

Пять главных фишек камеры HONOR Magic 7 Pro

Hollow Knight: Silksong — песнь страданий и радостей. Рецензия

Обзор смартфона HUAWEI Pura 80: удобный флагман с «Алисой»

Источник изображения: Igor Omilaev / unsplash.com

В своём исходном значении понятие «признания», конечно, неприменимо к моделям ИИ, которые в действительности представляют собой не более чем сложные статистические алгоритмы. В терминах OpenAI под «признанием» понимается возможность модели оценить свои нежелательные действия, например, галлюцинации в ответах или попытки нарушить условия задачи, чтобы прийти к желаемому результату. «Признание — это [вторичный] ответ, даваемый по запросу после первоначального ответа модели, призванный служить полным отчётом о соответствии модели букве и духу её политик и инструкций», — говорится в статье (PDF) OpenAI.

Проще говоря, модели отправляется запрос на получение второго ответа с оценкой первого. Склонность к неподобающему поведению у ИИ формируется на этапе обучения с подкреплением, когда он обнаруживает возможность злоупотреблять механизмами вознаграждения. То есть модель исходит из того, что получит вознаграждение за «признание» и останется безнаказанной за сами нежелательные действия, например, за подхалимство.

Эти соображения, как оказалось, подтверждаются на практике. В 11 из 12 проведённых тестов она признавалась минимум в половине случаев, когда действовала вопреки инструкциям. Частота признаний оказалась переменчивой величиной: средняя вероятность получить признание по всем тестам составила 74,3 %. В 4 тестах из 12 этот показатель был выше 90 %, а в 2 из 12 — 50 % или ниже. Вероятность ложноотрицательного ответа, когда модель нарушила правила и не признала своей ошибки, составила лишь 4,4 %; были и ложноположительные, когда модель признавалась в неподобающем поведении, хотя ничего такого не совершала.

Когда OpenAI включили сценарий с «признаниями» в механизм обучения модели, качество её ответов не показало существенного ухудшения. С другой стороны, даже «признаваясь» в своих грехах, она стала вести себя не лучше, но хотя бы честнее. То есть «признание» — это не заградительный барьер, а механизм безопасности, который к тому же работает с переменным успехом.

Источник

05.12.2025

0 9

Читать следующую

Смартфон HUAWEI Mate 70 Pro как выбор фотографа

Обзор планшета HONOR Pad V9: нейросети спешат на помощь

Репортаж со стенда HONOR на выставке MWC 2025: передовые новинки и стратегические планы на будущее с ИИ

Наушники HUAWEI FreeBuds 6, которые понимают жесты

Обзор смартфона HONOR X9c Smart: прочность со скидкой

Лучший процессор за 20 тысяч рублей — сравнение и тесты

Пять главных фишек камеры HONOR Magic 7 Pro

Hollow Knight: Silksong — песнь страданий и радостей. Рецензия

Обзор смартфона HUAWEI Pura 80: удобный флагман с «Алисой»

Читать следующую

Cyberpunk: Edgerunners 2 скоро выйдет из тени — анонсирован новый показ амбициозного сериала по Cyberpunk 2077

Tryx представила жидкостный кулер Holo с голографическим дисплеем

За месяц игроки Diablo II: Resurrected создали почти два миллиона чернокнижников — статистика дополнения Reign of the Warlock

«Ждал семь лет и не разочарован»: симулятор жизни Paralives заслужил в раннем доступе Steam «в основном положительные» отзывы, несмотря на баги

Tether выпустит цифровой грузинский лари совместно с правительством Грузии

Huawei рассекретила флагманский мобильный процессор Kirin 2026 с двухслойной архитектурой

Honor представила смарт-часы Watch 6 Plus с автономностью до 17 дней и ценой от $191

Konami показала 50 минут геймплея Metal Gear Solid 4: Guns of the Patriots на PS5 — фанаты в восторге

ИИ-бум разогнал рынок флеш-памяти — выручка топ-5 производителей NAND взлетела на 83,7 %

Oppo представила внешний дисплей на магните для смартфонов — чтобы делать селфи и групповые фото

Добавить комментарий Отменить ответ