Термин глоссария

Prompt-level caching

Prompt-level caching — сохранение вычисленных результатов для повторяющихся запросов, чтобы ускорить ответы и снизить нагрузку на инференс.

Определение

Prompt-level caching — это механизм, при котором система сохраняет ранее вычисленные ответы или промежуточные состояния инференса для полностью идентичных или семантически эквивалентных запросов. Его цель — исключить повторное выполнение модели там, где результат уже известен, что существенно снижает стоимость работы сервиса и улучшает время отклика.

В отличие от KV-cache, который относится к ускорению внутри одного запроса, prompt-level caching работает на уровне целого пользовательского ввода и может кэшировать вывод полностью.

Как работает

Система формирует ключ кэша, который представляется хешем исходного prompt или его нормализованной формы. При поступлении нового запроса система выполняет поиск соответствующего ключа:

Key generation — создание хеша или идентификатора для prompt.
Prompt normalization — удаление незначимых различий (пробелы, переносы строк, унификация регистра), если включена.
Cache lookup — поиск готового результата в базе или in-memory хранилище.
Cache hit — немедленная выдача ранее вычисленного ответа.
Cache miss — выполнение инференса, последующее сохранение результата.

Для мультимодальных моделей кэш может включать хеши изображений, аудиофайлов или комбинации текстовых и бинарных признаков. В более сложных системах применяется approximate matching — кэширование по близким embedding-вектором запросам.

Где применяется

Сервисы, где пользователи часто отправляют повторяющиеся запросы.
Онлайн-платформы вопросов и ответов.
API высокого трафика, работающие с одинаковыми системными prompt.
Пайплайны генерации документации, кода или резюме.
Интеграции, выполняющие одни и те же задания для множества пользователей.
Корпоративные системы, где prompt фиксирован и меняются только данные.

Практические примеры использования

В API генерации текста prompt-level caching используют для запросов, которые возникают многократно: генерация инструкций, справочной информации, базовых ответов. Если запрос полностью совпадает с уже обработанным, ответ возвращается из кэша за миллисекунды.

В чат-системах prompt-level caching помогает при повторных запросах пользователей, например когда пользователь переформулирует вопрос, но итоговый нормализованный prompt остаётся тем же.

В сервисах анализа данных, где отправляется один и тот же системный prompt, а пользовательские данные включаются далее, кэш может хранить результат вычислений системной части и уменьшать длину контекста.

В мультимодальных приложениях кэширование используется для запросов с одинаковыми изображениями: хеш картинки и текстового prompt формируют уникальную запись.

Ключевые свойства prompt-level caching

Полный уровень абстракции — кэшируется результат всего запроса, а не отдельные токены.
Высокая эффективность — позволяет экономить большое количество вычислений при повторяемых prompt.
Инвариантность при нормализации — кэш может учитывать преобразования текста.
Поддержка мультимодальности — кэширование возможно и для изображений, аудио и видео.

Проблемы и ограничения

Ограниченная применимость — работает только для идентичных запросов, если не включена семантическая нормализация.
Память — хранение большого числа кэшированных результатов требует выделенного хранилища.
Сложность ключей — формирование устойчивых хешей для мультимодальных данных требует дополнительных этапов.
Устаревание ответов — кэш может возвращать ответы, сформированные старой версией модели.

Преимущества и ограничения

Плюс: значительное сокращение затрат на инференс.
Плюс: резкое снижение latency повторяющихся запросов.
Плюс: уменьшение нагрузки на GPU.
Плюс: простота реализации для текстовых prompt.
Минус: неэффективен при разнообразных запросах.
Минус: требует периодической очистки и политики устаревания.
Минус: невозможность использования при персонализированных ответах.
Минус: риск кэширования ошибок или старых данных.

Связанные термины

KV-cache
Context caching
Distributed inference
Batching
Model serving
Autoscaling инференса
Semantic search

Категория термина

Инференс и производительность

Экосистемы