Термин глоссария

Face reenactment

Face reenactment — технология, позволяющая перенести мимику, артикуляцию и движения головы одного человека на лицо другого с сохранением идентичности целевого персонажа.

Определение

Face reenactment — это класс моделей генерации, которые принимают драйвер-сигнал (видео или параметры позы/мимики) и переносят его на лицо целевого персонажа. Система изменяет выражения, движение рта, повороты головы и эмоции, при этом сохраняя идентичность целевого лица. Face reenactment применяется в виртуальных аватарах, dub-адаптации, создании цифровых актёров, deepfake-системах и интерактивных мультимодальных ассистентах.

Как работает

Типовой пайплайн face reenactment состоит из следующих модулей:

Face analysis / driver extraction — извлечение артикуляционных параметров с драйвер-видео:
- 2D facial landmarks;
- 3D head pose;
- blendshape coefficients;
- motion vectors;
- audio-driven phoneme cues (в гибридных системах).
Identity encoder — модель кодирует внешний вид целевого лица (текстуру, геометрию, форму).
Реenactment generator — генератор кадров или латентов:
- GAN-based (FaceSwap, FOMM — First Order Motion Model);
- Diffusion-based (Diffusion Реenactment, GeneFace, DiffTalk);
- 3D-aware генераторы (NeRF/tri-plane/GAUDI);
Warping / motion transfer — перенос движения драйвера на целевое лицо (keypoint-driven warping, deformation fields).
Реndering / refinement — финальная генерация высококачественного изображения с коррекцией артефактов.

Модель может работать как по полному видео, так и по изображению-аватару, на который «натягивается» движение источника. Diffusion-подходы обеспечивают реалистичность кожи, отражений и мимики.

Где применяется

Виртуальные и говорящие аватары.
Синхронный перевод с мимической адаптацией.
Deepfake-системы и постпродакшн кино.
Игровые движки и анимационные инструменты.
Телеприсутствие и видеочаты с аватарами.

Практические примеры использования

Модели FOMM и FaceVid2Vid обеспечивают motion transfer через keypoints и деформационные поля. GeneFace и DiffTalk используют diffusion-генерацию с 3D head pose. SadTalker объединяет аудио-синхронизацию и reenactment, формируя реалистичные говорящие лица. Новые системы применяют 3D-aware генерацию и implicit neural representations (NeRF), улучшая стабильность поворотов головы и освещения.

В индустрии face reenactment применяется для автоматизации дубляжа, создания виртуальных ведущих, адаптации рекламных роликов под разные рынки, разработки цифровых актёров и интерактивных сервисов.

Ключевые свойства

Перенос мимики и движений лица.
Сохранение идентичности целевого персонажа.
Поддержка 2D и 3D параметров движения.
Интеграция с аудио и lip-sync моделями.
Высокое качество синтеза при diffusion-подходах.

Проблемы и ограничения

Сложности с экстремальными поворотами головы.
Артефакты на границах лица и фона.
Неустойчивость при низком качестве исходного видео.
Высокая вычислительная стоимость diffusion моделей.
Чувствительность к несовпадению геометрии лиц.

Преимущества и ограничения

Плюс: реалистичный перенос мимики и эмоций.
Минус: требует качественного обучения и точных ключевых точек.

Связанные термины

Lip-sync model
Audio encoder
3D head pose
Motion transfer
Diffusion models

Категория термина

Мультимодальность

Экосистемы