Model latency — время, которое проходит от получения запроса до формирования ответа моделью, включающее вычисления, очереди и коммуникации.
Определение
Model latency — это совокупное время отклика модели от момента поступления пользовательского запроса до выдачи результата. Показатель определяется скоростью вычислений, состоянием очередей, пропускной способностью GPU, стратегией batching и сетевыми задержками. Latency — один из ключевых параметров при работе с LLM, генеративными моделями и мультимодальными системами, так как напрямую влияет на качество пользовательского опыта и пропускную способность сервиса.
В продакшене latency измеряется для каждого этапа обработки, что позволяет выявлять узкие места и оптимизировать производительность.
Как работает
Полная модельная задержка складывается из нескольких компонентов. Ее структура зависит от инфраструктуры, batching и характера модели.
- Queue latency — ожидание в очереди перед обработкой. Возникает при высокой нагрузке.
- Preprocessing latency — токенизация, нормализация данных, подготовка входного формата.
- Compute latency — реальное выполнение модели: матричные операции, attention, декодирование.
- KV-cache latency — ускорение или замедление при использовании кэша контекста.
- Postprocessing latency — детокенизация, формирование итогового ответа.
- Network latency — задержки передачи запроса и ответа, особенно в облачных системах.
Latency может варьироваться в зависимости от длины prompt, длины генерируемого текста, уровня параллелизма, политики sampling и степени загруженности GPU.
Где применяется
- LLM-сервисы с интерактивной генерацией текста.
- Чат-ассистенты, требующие мгновенных ответов.
- Мультимодальные пайплайны с обработкой изображений и текста.
- Поисковые и рекомендательные системы.
- Высоконагруженные API-интерфейсы.
- Edge-инференс, где задержка критична.
Практические примеры использования
В LLM-сервисах latency снижается с помощью KV-cache, который сокращает время генерации токенов для длинных контекстов. Compute latency напрямую зависит от архитектуры модели и скорости GPU: более широкие слои или сложные внимания-архитектуры увеличивают задержку.
В системах с batching latency может как снижаться, так и расти: батчи увеличивают эффективность GPU, но создают очереди, задерживающие отдельные запросы. Для снижения задержки используется динамический batching, который регулирует размер пакета в реальном времени.
В мультисерверных системах latency также зависит от скорости коммуникаций. При tensor parallelism и sharded inference часть времени уходит на передачу параметров и активаций между устройствами.
В реальном времени latency анализируют по перцентилям (p50, p90, p99), чтобы контролировать поведение сервиса под нагрузкой и выявлять пики задержек.
Ключевые свойства model latency
- Многокомпонентная природа — задержка складывается из вычислений, очередей, сетевых операций и постобработки.
- Зависимость от длины контекста — чем длиннее prompt, тем выше latency на префиксной части.
- Непредсказуемость нагрузки — рост запросов резко увеличивает задержку из-за очередей.
- Влияние оптимизации — квантование, graph compilation, KV-cache, batching сильно меняют latency.
Проблемы и ограничения
- Queue spikes — задержка может резко вырасти при кратковременной перегрузке.
- Длинные контексты — вычисления на первых токенах дороги и плохо параллелятся.
- Бутылочные горлышки в GPU — при высокой загрузке ядра compute latency растёт нелинейно.
- Коммуникации при распределённом inference — межузловые задержки могут превысить compute latency.
- Сложность оптимизации — уменьшение одного компонента latency может ухудшить другой.
Преимущества и ограничения
- Плюс: позволяет оценивать реальную производительность модели.
- Плюс: формирует критерии оптимизации инференса.
- Плюс: помогает проектировать autoscaling.
- Плюс: даёт основу для анализа SLA в продакшене.
- Минус: сложно контролировать при высокой вариативности запросов.
- Минус: зависит от инфраструктуры и сети.
- Минус: ухудшается при длинных генерациях.
- Минус: требует постоянного мониторинга и профилирования.
Связанные термины
- Autoscaling инференса
- Model serving
- Distributed inference
- Batching
- KV-cache
- Context caching
- Throughput
- Latency jitter