Этика использования систем искусственного интеллекта является животрепещущей проблемой, которой озабочены не только разработчики, но и государственные структуры. Официальные версии ИИ-моделей настроены так, чтобы не давать ответов на запросы, нацеленные на получение запретной информации. Тем не менее, модификация этих моделей позволяет довольно просто снять все подобные ограничения.
Содержание статьи
- 1 Линия защиты: обзор виртуальных машин и песочниц для Android
- 2 Обзор Intel Core Ultra 5 250K Plus, или Как Arrow Lake превратился в «топ за свои деньги»
- 3 Обзор Apple MacBook Neo: удивительно хороший ноутбук с процессором от iPhone
- 4 Обзор Intel Core Ultra 7 270K Plus — лучший Arrow Lake за полцены
- 5 Выбираем лучший игровой ноутбук до 100 000 рублей: сравнительное тестирование 7 интересных моделей
- 6 72 полёта над Марсом: как Ingenuity пережил зиму, сбои и собственную миссию
- 7 От Ryzen 7 1800X до Ryzen 7 9850X3D: девять лет эволюции AMD в одном тесте
- 8 Компьютер месяца — май 2026 года
Линия защиты: обзор виртуальных машин и песочниц для Android
Обзор Intel Core Ultra 5 250K Plus, или Как Arrow Lake превратился в «топ за свои деньги»
Обзор Apple MacBook Neo: удивительно хороший ноутбук с процессором от iPhone
Обзор Intel Core Ultra 7 270K Plus — лучший Arrow Lake за полцены
Выбираем лучший игровой ноутбук до 100 000 рублей: сравнительное тестирование 7 интересных моделей
72 полёта над Марсом: как Ingenuity пережил зиму, сбои и собственную миссию
От Ryzen 7 1800X до Ryzen 7 9850X3D: девять лет эволюции AMD в одном тесте
Компьютер месяца — май 2026 года
Источник изображения: Unsplash, Steve A Johnson
Как сообщает издание Financial Times, по его просьбе исследователи группы Alice, которые специализируются на безопасности в сфере ИИ, провели ряд экспериментов, доказав возможность обхода большинства этических ограничений на современных ИИ-моделях популярных разработчиков. По крайней мере, модифицированную версию модели с открытым исходным кодом Google Gemma 3 авторы эксперимента заставили ответить на запрос о методике распыления хлора в наполненном людьми помещении, сгенерировать программный код для хищения данных кредитных карт, а также написать рассказы, сюжет которых подразумевал растление несовершеннолетних.
Подобные модификации исходных ИИ-моделей, по данным исследователей группы Alice, получают определённое распространение, нивелируя усилия законодателей и регуляторов по предотвращению злонамеренного и преступного использования ИИ. Программные средства для модификации кода ПО распространяются независимо от создателей исходных ИИ-моделей. Инструменты для децензурирования ИИ-моделей распространяются свободно и бесплатно, отмечают авторы исследования.
К счастью, такие модификации сложно применить к ИИ-моделям с закрытым исходным кодом, но версии с открытым кодом обычно отстают от проприетарных аналогов в своём развитии на шесть или двенадцать месяцев, и их возможностей вполне хватает злоумышленникам для достижения своих целей. Доступ к версиям моделей со снятыми этическими ограничениями могут получить и лица, не обладающие серьёзными техническими познаниями. Представителям Financial Times удалось снять такие ограничения самостоятельно с модели Meta✴ Llama 3.3, воспользовавшись программным средством Heretic. Для этого было достаточно добавить четыре строчки кода и в общей сложности потратить около 10 минут, после чего модифицированная модель начала свободно обсуждать нюансы применения ядов для покушения на убийство.
Создатель Heretic признался, что с помощью этого программного средства уже удалось модифицировать более 3500 моделей, а количество скачиваний модифицированных моделей достигло 13 млн с прошлого года. С модели Google Gemma 4 сам создатель Heretic убрал ограничения в течение 90 минут после её выхода. По словам экспертов, исключение «вредного материала» при обучении ИИ-моделей не решает проблемы, поскольку они становятся «слишком наивными», и не могут достоверно определить случаи собственного злонамеренного использования. Представители GitHub объяснили наличие такого ПО на страницах ресурса тем, что оно может быть полезным для образовательных целей и приносит пользу всему сообществу специалистов по безопасности.

