Model latency и производительность инференса

Термин глоссария

Model latency


Model latency — время, которое проходит от получения запроса до формирования ответа моделью, включающее вычисления, очереди и коммуникации.

Определение

Model latency — это совокупное время отклика модели от момента поступления пользовательского запроса до выдачи результата. Показатель определяется скоростью вычислений, состоянием очередей, пропускной способностью GPU, стратегией batching и сетевыми задержками. Latency — один из ключевых параметров при работе с LLM, генеративными моделями и мультимодальными системами, так как напрямую влияет на качество пользовательского опыта и пропускную способность сервиса.

В продакшене latency измеряется для каждого этапа обработки, что позволяет выявлять узкие места и оптимизировать производительность.

Как работает

Полная модельная задержка складывается из нескольких компонентов. Ее структура зависит от инфраструктуры, batching и характера модели.

  • Queue latency — ожидание в очереди перед обработкой. Возникает при высокой нагрузке.
  • Preprocessing latency — токенизация, нормализация данных, подготовка входного формата.
  • Compute latency — реальное выполнение модели: матричные операции, attention, декодирование.
  • KV-cache latency — ускорение или замедление при использовании кэша контекста.
  • Postprocessing latency — детокенизация, формирование итогового ответа.
  • Network latency — задержки передачи запроса и ответа, особенно в облачных системах.

Latency может варьироваться в зависимости от длины prompt, длины генерируемого текста, уровня параллелизма, политики sampling и степени загруженности GPU.

Где применяется

  • LLM-сервисы с интерактивной генерацией текста.
  • Чат-ассистенты, требующие мгновенных ответов.
  • Мультимодальные пайплайны с обработкой изображений и текста.
  • Поисковые и рекомендательные системы.
  • Высоконагруженные API-интерфейсы.
  • Edge-инференс, где задержка критична.

Практические примеры использования

В LLM-сервисах latency снижается с помощью KV-cache, который сокращает время генерации токенов для длинных контекстов. Compute latency напрямую зависит от архитектуры модели и скорости GPU: более широкие слои или сложные внимания-архитектуры увеличивают задержку.

В системах с batching latency может как снижаться, так и расти: батчи увеличивают эффективность GPU, но создают очереди, задерживающие отдельные запросы. Для снижения задержки используется динамический batching, который регулирует размер пакета в реальном времени.

В мультисерверных системах latency также зависит от скорости коммуникаций. При tensor parallelism и sharded inference часть времени уходит на передачу параметров и активаций между устройствами.

В реальном времени latency анализируют по перцентилям (p50, p90, p99), чтобы контролировать поведение сервиса под нагрузкой и выявлять пики задержек.

Ключевые свойства model latency

  • Многокомпонентная природа — задержка складывается из вычислений, очередей, сетевых операций и постобработки.
  • Зависимость от длины контекста — чем длиннее prompt, тем выше latency на префиксной части.
  • Непредсказуемость нагрузки — рост запросов резко увеличивает задержку из-за очередей.
  • Влияние оптимизации — квантование, graph compilation, KV-cache, batching сильно меняют latency.

Проблемы и ограничения

  • Queue spikes — задержка может резко вырасти при кратковременной перегрузке.
  • Длинные контексты — вычисления на первых токенах дороги и плохо параллелятся.
  • Бутылочные горлышки в GPU — при высокой загрузке ядра compute latency растёт нелинейно.
  • Коммуникации при распределённом inference — межузловые задержки могут превысить compute latency.
  • Сложность оптимизации — уменьшение одного компонента latency может ухудшить другой.

Преимущества и ограничения

  • Плюс: позволяет оценивать реальную производительность модели.
  • Плюс: формирует критерии оптимизации инференса.
  • Плюс: помогает проектировать autoscaling.
  • Плюс: даёт основу для анализа SLA в продакшене.
  • Минус: сложно контролировать при высокой вариативности запросов.
  • Минус: зависит от инфраструктуры и сети.
  • Минус: ухудшается при длинных генерациях.
  • Минус: требует постоянного мониторинга и профилирования.

Связанные термины

  • Autoscaling инференса
  • Model serving
  • Distributed inference
  • Batching
  • KV-cache
  • Context caching
  • Throughput
  • Latency jitter

Категория термина

Инференс и производительность