Заставить ИИ выдавать запрещённую информацию довольно просто, показали исследователи

Этика использования систем искусственного интеллекта является животрепещущей проблемой, которой озабочены не только разработчики, но и государственные структуры. Официальные версии ИИ-моделей настроены так, чтобы не давать ответов на запросы, нацеленные на получение запретной информации. Тем не менее, модификация этих моделей позволяет довольно просто снять все подобные ограничения.

Линия защиты: обзор виртуальных машин и песочниц для Android

Содержание статьи

1 Линия защиты: обзор виртуальных машин и песочниц для Android
2 Обзор Intel Core Ultra 5 250K Plus, или Как Arrow Lake превратился в «топ за свои деньги»
3 Обзор Apple MacBook Neo: удивительно хороший ноутбук с процессором от iPhone
4 Обзор Intel Core Ultra 7 270K Plus — лучший Arrow Lake за полцены
5 Выбираем лучший игровой ноутбук до 100 000 рублей: сравнительное тестирование 7 интересных моделей
6 72 полёта над Марсом: как Ingenuity пережил зиму, сбои и собственную миссию
7 От Ryzen 7 1800X до Ryzen 7 9850X3D: девять лет эволюции AMD в одном тесте
8 Компьютер месяца — май 2026 года

Линия защиты: обзор виртуальных машин и песочниц для Android

Обзор Intel Core Ultra 5 250K Plus, или Как Arrow Lake превратился в «топ за свои деньги»

Обзор Apple MacBook Neo: удивительно хороший ноутбук с процессором от iPhone

Обзор Intel Core Ultra 7 270K Plus — лучший Arrow Lake за полцены

Выбираем лучший игровой ноутбук до 100 000 рублей: сравнительное тестирование 7 интересных моделей

72 полёта над Марсом: как Ingenuity пережил зиму, сбои и собственную миссию

От Ryzen 7 1800X до Ryzen 7 9850X3D: девять лет эволюции AMD в одном тесте

Компьютер месяца — май 2026 года

Источник изображения: Unsplash, Steve A Johnson

Как сообщает издание Financial Times, по его просьбе исследователи группы Alice, которые специализируются на безопасности в сфере ИИ, провели ряд экспериментов, доказав возможность обхода большинства этических ограничений на современных ИИ-моделях популярных разработчиков. По крайней мере, модифицированную версию модели с открытым исходным кодом Google Gemma 3 авторы эксперимента заставили ответить на запрос о методике распыления хлора в наполненном людьми помещении, сгенерировать программный код для хищения данных кредитных карт, а также написать рассказы, сюжет которых подразумевал растление несовершеннолетних.

Подобные модификации исходных ИИ-моделей, по данным исследователей группы Alice, получают определённое распространение, нивелируя усилия законодателей и регуляторов по предотвращению злонамеренного и преступного использования ИИ. Программные средства для модификации кода ПО распространяются независимо от создателей исходных ИИ-моделей. Инструменты для децензурирования ИИ-моделей распространяются свободно и бесплатно, отмечают авторы исследования.

К счастью, такие модификации сложно применить к ИИ-моделям с закрытым исходным кодом, но версии с открытым кодом обычно отстают от проприетарных аналогов в своём развитии на шесть или двенадцать месяцев, и их возможностей вполне хватает злоумышленникам для достижения своих целей. Доступ к версиям моделей со снятыми этическими ограничениями могут получить и лица, не обладающие серьёзными техническими познаниями. Представителям Financial Times удалось снять такие ограничения самостоятельно с модели Meta✴ Llama 3.3, воспользовавшись программным средством Heretic. Для этого было достаточно добавить четыре строчки кода и в общей сложности потратить около 10 минут, после чего модифицированная модель начала свободно обсуждать нюансы применения ядов для покушения на убийство.

Создатель Heretic признался, что с помощью этого программного средства уже удалось модифицировать более 3500 моделей, а количество скачиваний модифицированных моделей достигло 13 млн с прошлого года. С модели Google Gemma 4 сам создатель Heretic убрал ограничения в течение 90 минут после её выхода. По словам экспертов, исключение «вредного материала» при обучении ИИ-моделей не решает проблемы, поскольку они становятся «слишком наивными», и не могут достоверно определить случаи собственного злонамеренного использования. Представители GitHub объяснили наличие такого ПО на страницах ресурса тем, что оно может быть полезным для образовательных целей и приносит пользу всему сообществу специалистов по безопасности.

Источник

25.05.2026

0 0

Читать следующую

Линия защиты: обзор виртуальных машин и песочниц для Android

Обзор Intel Core Ultra 5 250K Plus, или Как Arrow Lake превратился в «топ за свои деньги»

Обзор Apple MacBook Neo: удивительно хороший ноутбук с процессором от iPhone

Обзор Intel Core Ultra 7 270K Plus — лучший Arrow Lake за полцены

Выбираем лучший игровой ноутбук до 100 000 рублей: сравнительное тестирование 7 интересных моделей

72 полёта над Марсом: как Ingenuity пережил зиму, сбои и собственную миссию

От Ryzen 7 1800X до Ryzen 7 9850X3D: девять лет эволюции AMD в одном тесте

Компьютер месяца — май 2026 года

Читать следующую

Copilot вернулся в Windows 11 в виде боковой панели, которая потеснит все остальные окна

В Linux обнаружена очередная серьёзная уязвимость — и ей уже десять лет

Outlook Classic перестал показывать картинки, но Microsoft обещала всё починить

SpaceX впервые запустила новейшую мегаракету Starship V3 — корабль потерял двигатель, но продолжил полёт

Samsung запатентовала смартфоны с растягивающимися экранами

Заряженное ностальгией и ужасами приключение Midnight Souls отправит искать любовь и бороться со стариками

OpenAI сорвала выход полнометражного мультфильма Critterz, закрыв ИИ-видеогенератор Sora

«Дай ему завершить работу»: Anthropic попросила разработчиков не мешать Claude писать и проверять код

Google назвала лучшие ИИ-модели для разработки Android-приложений — Gemini проиграл GPT

Microsoft придумала временную заплатку для уязвимости YellowKey в BitLocker

Добавить комментарий Отменить ответ