За 2025 год качество дипфейков — создаваемых при помощи искусственного интеллекта медиафайлов — значительно повысилось. Лица, голоса и движения тела, которые ИИ генерирует, имитируя реальных людей, превзошли ожидания многих экспертов; эти материалы всё чаще используются, чтобы обманывать людей, предупреждает Gizmodo.
Содержание статьи
- 1 HUAWEI XMAGE 2025: мобильная фотография как полноценное окно в мир искусства
- 2 Российские итоги HUAWEI XMAGE 2025 и выставка «Фото[графическое] путешествие»
- 3 Смартфон HUAWEI Pura 80 Pro как универсальный инструмент тревел-фотографа
- 4 Топ-10 смартфонов до 20 тысяч рублей (2025 год)
- 5 HUAWEI FreeBuds 7i: ставка на глубину
- 6 Ryzen 9 против Core i9 и Core Ultra 9: большой тест флагманcких процессоров
- 7 Топ-10 смартфонов до 35 тысяч рублей (2025 год)
- 8 Процессоры за 30 тысяч рублей — большой сравнительный тест
HUAWEI XMAGE 2025: мобильная фотография как полноценное окно в мир искусства
Российские итоги HUAWEI XMAGE 2025 и выставка «Фото[графическое] путешествие»
Смартфон HUAWEI Pura 80 Pro как универсальный инструмент тревел-фотографа
Топ-10 смартфонов до 20 тысяч рублей (2025 год)
HUAWEI FreeBuds 7i: ставка на глубину
Ryzen 9 против Core i9 и Core Ultra 9: большой тест флагманcких процессоров
Топ-10 смартфонов до 35 тысяч рублей (2025 год)
Процессоры за 30 тысяч рублей — большой сравнительный тест
Источник изображения: Tom Kotov / unsplash.com
Во многих повседневных ситуациях, будь то видеозвонки низкого разрешения или медиаконтент в соцсетях, качество ИИ-дипфейков уже достаточно высоко, чтобы обмануть простых людей, которые не являются экспертами. Качеством всплеск дипфейков не ограничивается: в 2023 году таких материалов было 500 тыс., а в 2025 году их стало около 8 млн, подсчитали в DeepStrike, и темпы роста составляют около 900 % в год.
Резкому росту показателей способствовали несколько технических прорывов. Во-первых, генерируемые ИИ материалы отличаются согласованностью по времени: люди в кадре правдоподобно движутся, люди легко узнаются, а содержание видео остаётся осмысленным в каждом кадре. Модели отделяют информацию, связанную с представлением личности человека, от информации о движении: одно и то же движение может сопоставляться с разными личностями, а одна и та же личность — с несколькими типами движений. Изображения лиц не мерцают, не искажаются и не имеют деформаций, которые раньше явно указывали на дипфейки.
Во-вторых, качество клонирования голоса уже преодолело условный порог неразличимости. Чтобы создать убедительную имитацию голоса, достаточно нескольких секунд — у клона будут естественная интонация, ритм, акцент, эмоции, паузы и даже шум дыхания. И это огромное пространство для крупномасштабного мошенничества. Субъективные признаки, которые раньше выдавали синтетические голоса, в значительной степени исчезли.
В-третьих, технический барьер для работы с генераторами контента, снизился практически до нуля — с OpenAI Sora 2 и Google Veo 3, а также с моделями некоторых стартапов любой желающий может сформулировать идею, составить подробный сценарий при помощи OpenAI ChatGPT или Google Gemini и в считанные минуты сгенерировать качественный контент. Автоматизировать весь процесс можно при помощи ИИ-агентов. В итоге возможность создавать связные дипфейки с сюжетами в больших масштабах уже демократизировали.
Источник изображения: Mark Farías / unsplash.com
Выявлять неотличимые от реальных людей дипфейки в социальных сетях становится крайне непросто, тем более, что внимание пользователей платформ уже фрагментировано, и материалы распространяются быстрее, чем их можно проверить. Дипфейки используются для дезинформации, преследования людей и финансовых махинаций, и люди не успевают понять, что вообще происходит.
Траектория на следующий год представляется очевидной — дипфейки движутся в сторону генерации контента в реальном времени. Видеоролики максимально точно имитируют нюансы внешности человека и оказываются способны обходить системы обнаружения. Граница смещается от статического визуального реализма к согласованности по времени и поведению — контент будет появляться в реальном времени, и предварительно отрисованными клипами дело уже не обойдётся. Результат выйдет за рамки простого узнавания человека — персонажи на роликах будут вести себя как их реальные прототипы. Участники видеозвонков смогут синтезироваться в реальном времени — их лица, голоса и манеры будут мгновенно адаптироваться к запросам, и вместо записанных видеороликов мошенники станут показывать своим жертвам подобные ИИ-аватары.
Субъективное восприятие уже не поможет людям защититься от подобных дипфейков — потребуются технические средства защиты, например, криптографическая подпись подлинных материалов и маркировка средств ИИ-редактирования. Тщательного изучения картинки на уровне пикселей может оказаться уже недостаточно.


