Термин глоссария

Model serving

Model serving — развертывание и выполнение модели в сервисе, обеспечивающем обработку запросов, управление версиями и масштабирование.

Определение

Model serving — это процесс размещения нейросетевой модели в рабочем сервисе, где она может выполнять запросы клиентов в реальном времени. Включает в себя загрузку модели, управление ее версиями, обработку входящих запросов, оптимизацию инференса, масштабирование нагрузки и мониторинг работы.

В продакшене model serving — один из ключевых этапов жизненного цикла модели. От него зависит скорость ответа, стабильность системы и возможность обновлять версию модели без простоев.

Как работает

Система model serving управляет всей цепочкой выполнения модели — от поступления запроса до формирования ответа. В типичной архитектуре обслуживание включает следующие элементы:

Загрузка модели — модель или ее шарды размещаются в GPU/CPU-памяти.
Оптимизация инференса — применяется компиляция графа, batching, квантование, кэширование KV.
Обработка запросов — входящие данные конвертируются в формат модели, затем выполняется вычисление.
Управление версиями — параллельная загрузка нескольких моделей, hot-swap, rollback.
Масштабирование — распределение нагрузки по нескольким устройствам или серверам.
Мониторинг — контроль метрик latency, throughput, ошибок, деградаций качества.

Для организации model serving используются специализированные системы: Triton Inference Server, Ray Serve, TorchServe, BentoML, а также внутренние серверы крупных компаний.

Где применяется

LLM-сервисы и чат-ассистенты.
Рекомендательные системы и ранжировщики.
Генерация текста, изображений и аудио в реальном времени.
Мультимодальные пайплайны.
Онлайн-обработка потоковых данных.
Системы с высокой SLA-нагрузкой.

Практические примеры использования

В сервисах генерации текста model serving обеспечивает очередь запросов, batching и оптимизированный runtime, чтобы сократить latency и увеличить throughput.

В мультимодальных приложениях сервер управляет несколькими моделями (например, языковой моделью и моделью обработки изображений), организуя пайплайн вычислений и маршрутизацию между компонентами.

В системах с непрерывными обновлениями hot-swap используется для переключения между версиями моделей без остановки API. Это критично для сервисов, где качество обновлений нужно проверять оперативно.

В крупных распределённых системах используется шардирование параметров и тензорный параллелизм, чтобы выполнять запросы моделями, которые не помещаются в один GPU.

Ключевые свойства model serving

Реальное время — система должна отвечать быстро и стабильно.
Гибкость версий — возможность параллельно содержать несколько моделей.
Масштабируемость — рост нагрузки компенсируется добавлением устройств или процессов.
Автоматизация — CI/CD и непрерывные обновления моделей.
Интеграция с инфраструктурой — логирование, мониторинг, распределение запросов.

Проблемы и ограничения

Высокая нагрузка на ресурсы — GPU-память и пропускная способность сети.
Сложность управления версиями — нужен контроль совместимости моделей и кэшей.
Сложные зависимости — модели требуют среды, библиотек и оптимизированных ядер.
Необходимость профилирования — узкие места могут возникать в I/O, CPU-препроцессинге или в runtime модели.
Задержки из-за batching — батчирование может увеличить latency для отдельных запросов.

Преимущества и ограничения

Плюс: обеспечивает стабильный и предсказуемый инференс.
Плюс: позволяет быстро развертывать новые модели.
Плюс: поддерживает масштабирование под нагрузку.
Плюс: интегрируется с системами мониторинга и логирования.
Минус: требует значительных инженерных усилий.
Минус: зависимость от инфраструктуры и GPU-доступности.
Минус: высокие требования к оптимизации.
Минус: ограничение по размеру модели при отсутствии шардирования.

Связанные термины

Distributed inference
Model versioning
Hot-swap моделей
Batching
Triton Inference Server
Ray Serve
Optimization kernels
KV-cache

Категория термина

Инференс и производительность

Экосистемы