Термин глоссария

Diffusion-модель

Diffusion-модели стали стандартом в генерации изображений. Они создают картинку, начиная с полного шума и постепенно делая его всё более похожим на описание.

Короткое определение

Diffusion-модель — это нейросеть, которая генерирует изображение путем пошагового удаления шума и приближения структуры картинки к заданному описанию.

Подробное объяснение

Принцип diffuсion основан на двух этапах: — «прямой» процесс: изображение превращают в шум при обучении; — «обратный» процесс: модель учится восстанавливать картинку из хаоса.

При генерации модель начинает с полностью случайного изображения и делает десятки или сотни шагов, очищая шум и формируя структуры: форму, цвет, пропорции, детали.

Каждое исправление — это маленький шаг в сторону описанной сцены. В итоге получается изображение, соответствующее текстовому запросу или референсу.

Diffusion-модели дают высокую детализацию, хорошо работают со стилями, позволяют смешивать референсы и корректировать участки изображения.

Классические представители: Stable Diffusion, DALL·E, Midjourney (гибридная архитектура), Kandinsky. В России наиболее известна линейка Kandinsky.

Diffusion-подход используется не только в искусстве: он работает в дизайне, архитектуре, медиа, геймдеве, промышленности, и в генерации данных для обучения других моделей.

Примеры использования

Генерация сцен и концепт-арта.
Создание рекламных визуалов.
Фотореалистичные рендеры продуктов и интерьеров.
Редактирование отдельных элементов изображения.
Создание данных для обучения VLM и других моделей.

Связанные термины

Генерация изображений
Stable Diffusion
Условная генерация (Conditional Generation)
Vision-Language Model
Эмбеддинги

Категория термина

Архитектуры моделей • Мультимодальность

Экосистемы