Термин глоссария

Токен-лимит

У любой языковой модели есть ограничение на объём текста, который она может удерживать в памяти. Это токен-лимит — ключевой параметр, определяющий, насколько длинные диалоги, документы или инструкции можно отправить модели в одном запросе.

Короткое определение

Токен-лимит — это максимальное количество токенов, которое модель способна обработать за один раз: сумма токенов запроса и генерируемого ответа.

Подробное объяснение

Токены — это мелкие фрагменты текста: слова, части слов, символы. Модель работает именно с ними, а не с буквами или предложениями напрямую. Поэтому объём текста измеряется в токенах.

Токен-лимит определяет длину контекстного окна модели — ту область, в пределах которой она может удерживать информацию, анализировать связи и формировать ответ. Если текст выходит за рамки лимита, модель «теряет» часть контекста.

Современные модели значительно увеличили лимиты. GPT, Claude, Gemini оперируют сотнями тысяч токенов. Российские модели — YandexGPT, GigaChat, VK AI — тоже расширяют контекст, что позволяет анализировать длинные документы и вести большие диалоги.

Токен-лимит включает и запрос, и ответ. Например, если лимит — 32k токенов, а ваш документ занимает 28k, ответ модели неизбежно будет короче, потому что часть окна уйдёт под вывод.

Для больших текстов используются техники вроде chunking, суммаризации, скользящего окна или векторных баз — они позволяют работать с материалом, который превышает возможности одной сессии.

Примеры использования

Понимание, поместится ли в запрос длинный PDF.
Расчёт, сколько текста можно анализировать за один вызов API.
Настройка промптов для больших диалоговых агентов.
Разделение документа на части для обработки.
Определение максимальной длины ответа модели.

Связанные термины

Токен
Контекстное окно
Токенизация
LLM

Категория термина

Инференс и производительность

Экосистемы