У любой языковой модели есть ограничение на объём текста, который она может удерживать в памяти. Это токен-лимит — ключевой параметр, определяющий, насколько длинные диалоги, документы или инструкции можно отправить модели в одном запросе.
Короткое определение
Токен-лимит — это максимальное количество токенов, которое модель способна обработать за один раз: сумма токенов запроса и генерируемого ответа.
Подробное объяснение
Токены — это мелкие фрагменты текста: слова, части слов, символы. Модель работает именно с ними, а не с буквами или предложениями напрямую. Поэтому объём текста измеряется в токенах.
Токен-лимит определяет длину контекстного окна модели — ту область, в пределах которой она может удерживать информацию, анализировать связи и формировать ответ. Если текст выходит за рамки лимита, модель «теряет» часть контекста.
Современные модели значительно увеличили лимиты. GPT, Claude, Gemini оперируют сотнями тысяч токенов. Российские модели — YandexGPT, GigaChat, VK AI — тоже расширяют контекст, что позволяет анализировать длинные документы и вести большие диалоги.
Токен-лимит включает и запрос, и ответ. Например, если лимит — 32k токенов, а ваш документ занимает 28k, ответ модели неизбежно будет короче, потому что часть окна уйдёт под вывод.
Для больших текстов используются техники вроде chunking, суммаризации, скользящего окна или векторных баз — они позволяют работать с материалом, который превышает возможности одной сессии.
Примеры использования
- Понимание, поместится ли в запрос длинный PDF.
- Расчёт, сколько текста можно анализировать за один вызов API.
- Настройка промптов для больших диалоговых агентов.
- Разделение документа на части для обработки.
- Определение максимальной длины ответа модели.
Связанные термины
- Токен
- Контекстное окно
- Токенизация
- LLM