Diffusion-модель: как ИИ генерирует изображения из шума

Термин глоссария

Diffusion-модель


Diffusion-модели стали стандартом в генерации изображений. Они создают картинку, начиная с полного шума и постепенно делая его всё более похожим на описание.

Короткое определение

Diffusion-модель — это нейросеть, которая генерирует изображение путем пошагового удаления шума и приближения структуры картинки к заданному описанию.

Подробное объяснение

Принцип diffuсion основан на двух этапах: — «прямой» процесс: изображение превращают в шум при обучении; — «обратный» процесс: модель учится восстанавливать картинку из хаоса.

При генерации модель начинает с полностью случайного изображения и делает десятки или сотни шагов, очищая шум и формируя структуры: форму, цвет, пропорции, детали.

Каждое исправление — это маленький шаг в сторону описанной сцены. В итоге получается изображение, соответствующее текстовому запросу или референсу.

Diffusion-модели дают высокую детализацию, хорошо работают со стилями, позволяют смешивать референсы и корректировать участки изображения.

Классические представители: Stable Diffusion, DALL·E, Midjourney (гибридная архитектура), Kandinsky. В России наиболее известна линейка Kandinsky.

Diffusion-подход используется не только в искусстве: он работает в дизайне, архитектуре, медиа, геймдеве, промышленности, и в генерации данных для обучения других моделей.

Примеры использования

  • Генерация сцен и концепт-арта.
  • Создание рекламных визуалов.
  • Фотореалистичные рендеры продуктов и интерьеров.
  • Редактирование отдельных элементов изображения.
  • Создание данных для обучения VLM и других моделей.

Связанные термины

  • Генерация изображений
  • Stable Diffusion
  • Условная генерация (Conditional Generation)
  • Vision-Language Model
  • Эмбеддинги

Категория термина

Архитектуры моделей • Мультимодальность