Дипфейк в цифровую эпоху: анализ и обнаружение с помощью нейронных сетей
Журнал Научные высказывания

Дипфейк в цифровую эпоху: анализ и обнаружение с помощью нейронных сетей

В работе рассматриваются современные достижения в области искусственного интеллекта и машинного обучения, способствующие разработке технологий для генерации аудиовизуального контента, среди которых особое внимание уделяется дипфейкам. А также проведен обзор ключевых подходов обнаружения поддельных видеозаписей с использованием свёрточных нейронных сетей и комбинированных методов.

дипфейки
CNN
обучающая выборка
искусственный интеллект
машинное обучение
информационная безопасность

Современные достижения в области искусственного интеллекта и машинного обучения способствуют развитию технологий для генерации аудиовизуального контента. Примером таких технологий являются дипфейки – синтетически созданные или модифицированные видео, в которых реалистично имитируются образы реальных людей. Эти инструменты позволяют заменять лица, изменять мимику и голос, создавая иллюзию подлинности. Такое развитие технологий порождает серьезные вызовы для общества и информационной безопасности, поскольку дипфейки могут использоваться для дезинформации, манипуляций и фальсификации доказательств.

Основным инструментом для обнаружения поддельных видеозаписей служат свёрточные нейронные сети (Convolutional Neural Network, CNN). Они представляют собой специализированные архитектуры нейронных сетей, предназначенные для эффективного распознавания визуальной информации. Основой CNN является свёрточный слой, где веса представлены в виде матриц (ядер свёртки), что позволяет эффективно обрабатывать изображения.

В статье [1] описан процесс обучения CNN, состоящей из следующих слоев: четыре сверточных слоя для извлечения признаков, шесть слоев нормализации для стабилизации распределения данных, три слоя субдискретизации для уменьшения размерности, четыре слоя исключения для предотвращения переобучения и два полносвязных слоя для финальной классификации.

Обучающая выборка была разделена следующим образом: 60% обучающие данные, 20% валидационные, 20% тестовые. Каждому видео присваивались метки «настоящее» или «поддельное». Перед подачей на вход CNN каждое видео обрабатывалось с использованием фреймворка dlib для определения 68 лицевых ориентиров (Facial Landmarks) в ключевых областях лица (глаза, брови, нос, рот). Затем кадр обрезался до размера 244×244×3 (ширина, высота, каналы RGB) и нормализовался в диапазоне от 0 до 1. В результате обученная CNN достигла точности 91.47%.

Обучение большинства CNN для распознавания поддельных видео основано на подобных методиках, хотя различия могут заключаться в способе извлечения лицевых ориентиров, составе наборов данных (количество видеозаписей, соотношение настоящих и поддельных, пропорции обучающей, валидационной и тестовой выборок).

Обратное распространение ошибки используется для оптимизации весов CNN. Прямое распространение сигнала проходит от первого слоя к последнему, затем ошибка вычисляется на выходе и распространяется назад. На каждом слое рассчитываются градиенты обучаемых параметров, которые затем используются для обновления весов с помощью градиентного спуска.

В работе [2] предложен метод, основанный на использовании геометрической структуры лица и графовой свёрточной сети (GCN). В отличие от других подходов, акцент сделан на построении графовой структуры на основе лицевых ориентиров (Facial Landmarks).

Архитектура названа графовой свёрточной сетью, так как она заимствует концепцию свёртки из классических свёрточных сетей, но оперирует графовыми данными, состоящими из вершин и рёбер. Операция свёртки в GCN отличается от традиционной: вместо фиксированного ядра свёртки используется агрегация признаков от соседних вершин.

Сначала определяются лицевые ориентиры, для каждого из которых с помощью SIFT-дескриптора формируется вектор признаков. SIFT выделяет характеристики, устойчивые к изменению масштаба, повороту и другим трансформациям. Далее строится граф, где вершины соответствуют лицевым ориентирам с ассоциированными признаками, а рёбра – связям между ними, при этом, рёбра имеют одинаковые веса. Они преобразуются в матрицу смежности для описания графа. Пространственные графы описывают взаимосвязи между точками в одном кадре, а временные графы связывают соответствующие вершины на разных кадрах, что позволяет анализировать изменения во времени.

Основным недостатком метода является высокая чувствительность к ошибкам в определении лицевых ориентиров, что может снижать его эффективность. Преимущество же заключается в способности выявлять статические, динамические и пространственные несоответствия.

Один из наиболее популярных подходов к выявлению поддельных видео является использование ансамбля нейронных сетей, например, комбинация CNN с другими типами нейронных сетей. Такой подход позволяет анализировать большее разнообразие признаков.

В частности, рекуррентные нейронные сети (RNN) предназначены для обработки последовательных данных, таких как текст, аудио и видео. Благодаря наличию обратных связей, они способны учитывать предыдущие кадры при анализе текущего, что полезно для выявления временных зависимостей и несоответствий в движениях лица и мимике, таких как нерегулярное моргание или задержки в движении губ.

Одной из разновидностей RNN является модель долгой краткосрочной памяти (LSTM), которая способна обрабатывать длинные последовательности данных.

В работе [3] описан метод, комбинирующий CNN и LSTM для обнаружения поддельных видеозаписей. Для обучения применяется техника «end-to-end» (от начала до конца), при которой модели обучаются совместно. После слоёв CNN данные передаются на вход LSTM, который обрабатывает их как последовательность. В ходе обучения LSTM запоминает динамические паттерны нормальных и поддельных видео, что впоследствии используется для классификации.

Для эксперимента использовались видеоролики из различных наборов данных, половина из которых были настоящими, а другая половина — поддельными. Ансамбль продемонстрировал точность 95.5%.

Рассмотрим еще один ансамбль, капсульные сети (Capsule Networks, CapsNets), которые представляют собой архитектуру нейронных сетей, предназначенную для улучшения распознавания сложных объектов. Они состоят из капсул – групп нейронов, которые кодируют различные параметры объектов, такие как положение, масштаб и ориентация. Каждая капсула генерирует вектор, характеризующий не только наличие определённого признака, но и его свойства. Это позволяет сети распознавать объекты независимо от их изменений, например, поворота или масштабирования, что особенно ценно при анализе лиц в видео.

Хотя CNN могут быть обучены для распознавания ключевых признаков поддельных видео с разных углов, для этого требуется большой объем данных, что удлиняет процесс обучения и может снизить общую точность. Основное преимущество капсульных сетей перед CNN заключается в их способности эффективно работать с изменёнными объектами.

Кроме того, в капсульных сетях вместо слоя субдискретизации используется динамическая маршрутизация, позволяющая передавать только полезные векторы признаков на основании предсказаний каждой капсулы.

В статье [4] предложено использовать VGG-19 (CNN с 19 слоями) в сочетании с CapsNet. Свёрточная сеть служит для оптимизации и сокращения затрат ресурсов, передавая на вход капсульной сети не изображение, а вектор. Эта предварительно обученная CNN заменяет начальные свёрточные слои оригинальной архитектуры CapsNet. Последний слой содержит две капсулы для бинарной классификации.

Экспериментально подтверждено, что предложенный метод достигает точности 93.11%, превосходя результаты модели CNN, при этом обладая меньшей вычислительной сложностью.

Подход с использованием CNN широко распространен благодаря тому, что эта архитектура является наиболее изученной и изначально предназначена для работы с изображениями. Однако основной недостаток CNN для обнаружения поддельных видео заключается в неспособности обрабатывать последовательности, что ограничивает её возможностями выявления лишь статических признаков (например, нестабильность освещения, несоответствие текстур кожи, размытые границы лица). Кроме того, базовые модели CNN недостаточно эффективны при обработке пространственных признаков (таких как поворот или масштабирование лица).

Для преодоления ограничений CNN исследователи предложили различные методы. Наиболее популярным стал подход с использованием ансамбля CNN-RNN, который позволяет выявлять динамические признаки (например, неправильное моргание или асимметрия движений губ).

Для обнаружения пространственных несоответствий предлагается ансамбль CNN-CapsNet, способный более эффективно распознавать сложные объекты, даже при частичном закрытии, изменении ракурса или масштабе.

Ещё одним перспективным направлением являются графовые свёрточные сети, которые способны выявлять статические, динамические и пространственные признаки поддельности видео, а также успешно функционируют с низкокачественными роликами. Однако для обеспечения высокой точности необходимо качественное определение лицевых ориентиров и построение графов.

В заключение отметим, что развитие технологий генерации аудиовизуального контента, таких как дипфейки, представляет собой как перспективу, так и угрозу для современного общества. С одной стороны, эти технологии открывают новые горизонты для творчества и развлечений, позволяя создавать реалистичные визуальные эффекты и искусственные видео. С другой стороны, они породили значительные вызовы в области информационной безопасности и этики, требуя от нас серьезного внимания ко вопросам дезинформации и манипуляции общественным мнением.

Таким образом, дальнейшие исследования в данной области должны сосредоточиться на улучшении алгоритмов обнаружения дипфейков, повышении их устойчивости к ошибкам и развитии новых методов, способствующих более глубокому пониманию и противодействию манипуляциям с визуальным контентом. Эффективная защита от дезинформации и фальсификации требует совместных усилий ученых, разработчиков технологий и правозащитников, чтобы обеспечить безопасность и этичность использования современных технологий.

Список литературы
  1. Kosarkara U., Sarkarkarb G., Gedam S. Revealing and Classification of Deepfakes Video’s Images using a Customize Convolution Neural Network Model // Procedia Computer Science, 2023, Vol. 218, P. 2636-2652 DOI: 10.1016/j.procs.2023.01.237
  2. Saif S., Tehseen S., Sohaib S. Ali Fake news or real? Detecting deepfake videos using geometric facial structure and graph neural network // Technological Forecasting and Social Change, 2024, Vol. 205, DOI: 10.1016/j.techfore.2024.123471
  3. Al-Dhabi Y., Zhang S., Deepfake Video Detection by Combining Convolutional Neural Network (CNN) and Recurrent Neural Network (RNN) // IEEE International Conference on Computer Science, Artificial Intelligence and Electronic Engineering (CSAIEE), 2021, P. 236-241, DOI: 10.1109/CSAIEE54046.2021.9543264
  4. Nguyen H. H., Yamagishi J., Echizen I., Capsule-forensics: Using Capsule Networks to Detect Forged Images and Videos // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, P. 2307-2311, DOI: 10.1109/ICASSP.2019.8682602
международный научный журнал

Научные высказывания #76

Предоставляем бесплатную справку о публикации, препринт статьи — сразу после оплаты.
Прием материалов
с 29 апреля по 15 мая
Сегодня - последний день приёма статей
Размещение электронной версии
29 мая