Термин глоссария

Model latency

Model latency — время, которое проходит от получения запроса до формирования ответа моделью, включающее вычисления, очереди и коммуникации.

Определение

Model latency — это совокупное время отклика модели от момента поступления пользовательского запроса до выдачи результата. Показатель определяется скоростью вычислений, состоянием очередей, пропускной способностью GPU, стратегией batching и сетевыми задержками. Latency — один из ключевых параметров при работе с LLM, генеративными моделями и мультимодальными системами, так как напрямую влияет на качество пользовательского опыта и пропускную способность сервиса.

В продакшене latency измеряется для каждого этапа обработки, что позволяет выявлять узкие места и оптимизировать производительность.

Как работает

Полная модельная задержка складывается из нескольких компонентов. Ее структура зависит от инфраструктуры, batching и характера модели.

Queue latency — ожидание в очереди перед обработкой. Возникает при высокой нагрузке.
Preprocessing latency — токенизация, нормализация данных, подготовка входного формата.
Compute latency — реальное выполнение модели: матричные операции, attention, декодирование.
KV-cache latency — ускорение или замедление при использовании кэша контекста.
Postprocessing latency — детокенизация, формирование итогового ответа.
Network latency — задержки передачи запроса и ответа, особенно в облачных системах.

Latency может варьироваться в зависимости от длины prompt, длины генерируемого текста, уровня параллелизма, политики sampling и степени загруженности GPU.

Где применяется

LLM-сервисы с интерактивной генерацией текста.
Чат-ассистенты, требующие мгновенных ответов.
Мультимодальные пайплайны с обработкой изображений и текста.
Поисковые и рекомендательные системы.
Высоконагруженные API-интерфейсы.
Edge-инференс, где задержка критична.

Практические примеры использования

В LLM-сервисах latency снижается с помощью KV-cache, который сокращает время генерации токенов для длинных контекстов. Compute latency напрямую зависит от архитектуры модели и скорости GPU: более широкие слои или сложные внимания-архитектуры увеличивают задержку.

В системах с batching latency может как снижаться, так и расти: батчи увеличивают эффективность GPU, но создают очереди, задерживающие отдельные запросы. Для снижения задержки используется динамический batching, который регулирует размер пакета в реальном времени.

В мультисерверных системах latency также зависит от скорости коммуникаций. При tensor parallelism и sharded inference часть времени уходит на передачу параметров и активаций между устройствами.

В реальном времени latency анализируют по перцентилям (p50, p90, p99), чтобы контролировать поведение сервиса под нагрузкой и выявлять пики задержек.

Ключевые свойства model latency

Многокомпонентная природа — задержка складывается из вычислений, очередей, сетевых операций и постобработки.
Зависимость от длины контекста — чем длиннее prompt, тем выше latency на префиксной части.
Непредсказуемость нагрузки — рост запросов резко увеличивает задержку из-за очередей.
Влияние оптимизации — квантование, graph compilation, KV-cache, batching сильно меняют latency.

Проблемы и ограничения

Queue spikes — задержка может резко вырасти при кратковременной перегрузке.
Длинные контексты — вычисления на первых токенах дороги и плохо параллелятся.
Бутылочные горлышки в GPU — при высокой загрузке ядра compute latency растёт нелинейно.
Коммуникации при распределённом inference — межузловые задержки могут превысить compute latency.
Сложность оптимизации — уменьшение одного компонента latency может ухудшить другой.

Преимущества и ограничения

Плюс: позволяет оценивать реальную производительность модели.
Плюс: формирует критерии оптимизации инференса.
Плюс: помогает проектировать autoscaling.
Плюс: даёт основу для анализа SLA в продакшене.
Минус: сложно контролировать при высокой вариативности запросов.
Минус: зависит от инфраструктуры и сети.
Минус: ухудшается при длинных генерациях.
Минус: требует постоянного мониторинга и профилирования.

Связанные термины

Autoscaling инференса
Model serving
Distributed inference
Batching
KV-cache
Context caching
Throughput
Latency jitter

Категория термина

Инференс и производительность

Экосистемы