Термин глоссария

Hot-swap моделей

Hot-swap моделей — механизм мгновенной замены версии модели в работающем сервисе без остановки запросов и деградации работы системы.

Определение

Hot-swap моделей — это способ обновления нейросетей в продакшене, при котором новая версия модели загружается и активируется без остановки сервиса. Механизм позволяет переключиться с одной версии модели на другую в реальном времени: текущие запросы завершаются на старой версии, новые начинают обслуживаться новой.

Подход используют системы, работающие под высокой нагрузкой: чат-ассистенты, поисковые ранжировщики, рекомендательные сервисы, мультимодальные модели и любые API с непрерывным трафиком.

Как работает

Hot-swap работает за счёт изолированной загрузки новой версии модели и атомарного переключения маршрутизации запросов. Ключевые элементы механизма:

Предварительная загрузка — новая версия модели загружается в память параллельно со старой.
Изолированный runtime — каждая версия модели имеет свой контекст выполнения.
Атомарный переключатель — routing-система переводит входящие запросы на новую модель без прерывания трафика.
Drain старой версии — текущие запросы завершаются, после чего старая модель выгружается.
Сохранение KV-кэшей — некоторые системы допускают перенос KV-кэша между версиями при совместимых архитектурах.

Hot-swap может выполняться автоматически (по расписанию, триггеру качества), вручную или через оркестратор (Triton, Kubernetes, собственные сервера инференса).

Где применяется

Обновление языковых моделей без остановки API.
Обновление ранжировщиков и рекомендательных моделей.
Переключение между версиями модели в A/B-тестах.
Горячий rollback после выявления регрессии.
Мультимодальные сервисы, где обновления выходят часто.
Сервера инференса с высокой SLA-нагрузкой.

Практические примеры использования

В генеративных сервисах новая LLM загружается заранее. После успешной инициализации runtime переключает трафик на новую версию. Пользователи не замечают перехода, так как latency не меняется.

В рекомендательных системах применяется схема «двойного слота»: два окружения хранят обе версии модели. Управляющий слой динамически назначает активную версию. Такой метод минимизирует время отклика и позволяет быстро возвращаться к старой модели.

В Triton Inference Server hot-swap строится через механизм model repository: новая версия появляется как отдельная папка, и сервер автоматически переключается на неё согласно политике маршрутизации.

В системах A/B-тестирования hot-swap обеспечивает мгновенное переключение долей трафика между версиями, позволяя измерять деградации качества или выигрыш без остановки сервиса.

Ключевые свойства hot-swap моделей

Нулевой downtime — обновление происходит без остановки API.
Атомарность переключения — все запросы переходят на новую версию одновременно.
Безопасный rollback — мгновенное возвращение к старой модели при регрессиях.
Гибкость — возможно переключение между несколькими версиями.
Изоляция окружений — сбой в новой модели не влияет на работающую версию.

Проблемы и ограничения

Пиковое потребление памяти — требуется держать в VRAM две версии модели одновременно.
Совместимость версий — несовпадение форматов или слоёв усложняет горячую замену.
Долгое время загрузки — модели большого размера требуют времени для инициализации.
Ограничения кэширования — KV-кэши часто несовместимы между версиями.
Необходимость стабильной инфраструктуры — hot-swap требует корректной оркестрации.

Преимущества и ограничения

Плюс: отсутствие простоя сервиса при обновлениях.
Плюс: возможность безопасного тестирования новых моделей.
Плюс: быстрый rollback при ухудшении качества.
Плюс: удобно для систем с CI/CD.
Минус: повышенное потребление ресурсов.
Минус: сложность реализации маршрутизации.
Минус: несовместимость версий ограничивает гибкость.
Минус: требует гарантированного контроля качества.

Связанные термины

Model versioning
Blue-green deployment
A/B testing
Distributed inference
Triton Inference Server
Model repository
Rollback

Категория термина

Инференс и производительность

Экосистемы