Термин глоссария

Motion diffusion model

Motion diffusion model — модель, основанная на диффузионном процессе, которая генерирует реалистичные последовательности движений человека, животных или объектов в 3D/2D пространстве.

Определение

Motion diffusion model — это генеративная архитектура, использующая диффузионный процесс для синтеза 2D или 3D-motion последовательностей. Она принимает либо текстовое описание, либо начальные условия (позиции, ключевые позы, траектории) и генерирует плавные, физически правдоподобные движения. Модель обучается на больших motion capture (MoCap) датасетах и обеспечивает стабильный синтез скелетных поз, мимики или движений объектов.

Как работает

Motion diffusion модель следует общему принципу диффузионных моделей, но в временном пространстве:

Motion representation — движение кодируется как последовательность 3D joint positions или joint rotations (например, SMPL-параметры).
Forward diffusion — добавление шума к motion-последовательности по мере увеличения шага t. Движение постепенно превращается в шум.
Denoising model — нейросеть учится восстанавливать чистое движение из зашумлённого на каждом шаге (reverse process). Часто используется:
- temporal U-Net,
- Transformer с temporal attention,
- graph-based encoders для скелетной структуры.
Conditioning — модель управляется:
- текстом (text-to-motion),
- аудиосигналом (audio-driven motion),
- начальной позой,
- траекторией движения,
- эмоциональным тоном.
Sampling — пошаговое удаление шума генерирует финальную координатную последовательность движений.

Модель обучается восстанавливать последовательности движения с высокой временной согласованностью, избегая артефактов вроде дрожания и неестественных ускорений.

Где применяется

Генерация 3D-анимации.
Геймдев и кино (автоматическая анимация персонажей).
Виртуальные аватары и VR/AR.
Motion editing и motion completion.
Аудио-драйв движений (музыка → танец).
Робототехника — моделирование человеческих движений.

Практические примеры использования

Работы типа MDM (Motion Diffusion Model), T2M (Text-to-Motion), MoFusion, EDGE используют diffusion-подход для синтеза сложных движений. MDM обучается на датасетах HumanML3D и AMASS, генерируя реалистичные последовательности походки, жестов, действий. Text-to-Motion модели позволяют создавать движения по описанию вроде “человек медленно поднимает коробку и поворачивается вправо”. Audio-to-Motion подходы синхронизируют движения с музыкой или голосом.

В индустрии diffusion-подходы применяются для быстрого прототипирования анимации, создания реалистичных аватаров и синхронизации жестов с речью.

Ключевые свойства

Генерация движения через временной denoising.
Высокая плавность и физическая реалистичность.
Гибкость conditioning (текст, аудио, поза).
Поддержка 2D и 3D motion форматов.
Стабильность кадров за счёт temporal attention.

Проблемы и ограничения

Высокая вычислительная стоимость временного diffusing.
Сложность генерации длинных последовательностей.
Необходимость больших MoCap-дataset’ов.
Проблемы с сохранением физической правдоподобности.
Ошибки накопления при редактировании движения.

Преимущества и ограничения

Плюс: реалистичная генерация сложных движений с высокой согласованностью.
Минус: дорогостоящая генерация и сложность контроля длительной динамики.

Связанные термины

Diffusion models
Text-to-motion
Temporal attention
SMPL
3D pose estimation

Категория термина

Мультимодальность

Экосистемы