Группа ученых из Калифорнийского университета в Сан-Диего продемонстрировала, что даже самые продвинутые системы обнаружения дипфейков можно обмануть. Для этого достаточно внедрить входные данные или состязательные примеры в каждый видеокадр дипфейка.
Состязательные примеры представляют собой слегка измененные входные данные, которые заставляют системы искусственного интеллекта допускать ошибку. Причем, данный метод работает даже после сжатия видео.
«Наша работа показывает, что атаки на детекторы дипфейков могут быть реальной угрозой», — отмечает соавтор работы Шехзин Хуссейн. По его словам, можно создавать дипфейки, даже не понимая ничего в работе модели машинного обучения, используемой детектором.
Типичные детекторы дипфейков фокусируются на лицах в видеороликах: сначала отслеживают их, а затем передают данные лица в нейронную сеть, которая определяет, настоящее оно или поддельное. Например, дипфейки не могут воспроизводить моргание, и детекторы фокусируются на движениях глаз.
Если же злоумышленники имеют некоторое представление о работе детекторов, то они могут разработать входные данные для их нацеливания на слепые зоны.
Исследователи создали состязательный пример для каждого лица в кадре видео. Алгоритм оценивает набор входных преобразований, как модель оценивает реальные или поддельные изображения. Затем он использует эту оценку для преобразования изображений таким образом, что они работают даже после сжатия и распаковки. Измененная версия лица вставляется в видеокадры. Этот процесс повторяется для всех кадров видео, чтобы создать итоговый дипфейк-ролик.
Исследователи протестировали свои дипфейки в двух сценариях: в первом хакеры имеют полный доступ к модели детектора, включая конвейер извлечения лиц, а также архитектуру и параметры модели классификации; во втором злоумышленники могут запрашивать модель машинного обучения только для определения вероятности того, что кадр будет классифицирован как настоящий или поддельный.
В первом сценарии вероятность успеха атаки для несжатых видео превышает 99%. Для сжатых видео — 84,96%. Во втором сценарии коэффициент успеха составил 86,43% для несжатого видео и 78,33% — для сжатого.
Команда отказалась публиковать свой код, чтобы его не могли использовать злоумышленники.
Для улучшения детекторов исследователи рекомендуют подход, аналогичный состязательному обучению: во время обучения противник продолжает генерировать новые дипфейки и детектор продолжает совершенствоваться.
Ранее исследователи из Бингемтонского университета совместно с Intel предложили определять дипфейки на основе невидимых для глаза изменений цвета кожи, обусловленных кровообращением. Метод фотоплетизмограммы позволяет регистрировать изменения кровяного потока с использованием источника инфракрасного или светового излучения и фоторезистора или фототранзистора.