Токен-лимит: сколько текста может обработать модель

Термин глоссария

Токен-лимит


У любой языковой модели есть ограничение на объём текста, который она может удерживать в памяти. Это токен-лимит — ключевой параметр, определяющий, насколько длинные диалоги, документы или инструкции можно отправить модели в одном запросе.

Короткое определение

Токен-лимит — это максимальное количество токенов, которое модель способна обработать за один раз: сумма токенов запроса и генерируемого ответа.

Подробное объяснение

Токены — это мелкие фрагменты текста: слова, части слов, символы. Модель работает именно с ними, а не с буквами или предложениями напрямую. Поэтому объём текста измеряется в токенах.

Токен-лимит определяет длину контекстного окна модели — ту область, в пределах которой она может удерживать информацию, анализировать связи и формировать ответ. Если текст выходит за рамки лимита, модель «теряет» часть контекста.

Современные модели значительно увеличили лимиты. GPT, Claude, Gemini оперируют сотнями тысяч токенов. Российские модели — YandexGPT, GigaChat, VK AI — тоже расширяют контекст, что позволяет анализировать длинные документы и вести большие диалоги.

Токен-лимит включает и запрос, и ответ. Например, если лимит — 32k токенов, а ваш документ занимает 28k, ответ модели неизбежно будет короче, потому что часть окна уйдёт под вывод.

Для больших текстов используются техники вроде chunking, суммаризации, скользящего окна или векторных баз — они позволяют работать с материалом, который превышает возможности одной сессии.

Примеры использования

  • Понимание, поместится ли в запрос длинный PDF.
  • Расчёт, сколько текста можно анализировать за один вызов API.
  • Настройка промптов для больших диалоговых агентов.
  • Разделение документа на части для обработки.
  • Определение максимальной длины ответа модели.

Связанные термины

  • Токен
  • Контекстное окно
  • Токенизация
  • LLM

Категория термина

Инференс и производительность