Top-p sampling: вероятностная выборка по ядру

Термин глоссария

Top-p sampling


Top-p sampling — стохастическая стратегия генерации, которая выбирает токены из минимального множества с суммарной вероятностью p.

Определение

Top-p sampling (или nucleus sampling) — метод стохастической генерации, в котором модель выбирает следующий токен не из фиксированного числа кандидатов, а из наименьшего множества токенов, чья суммарная вероятность превышает порог p. Это позволяет адаптировать размер выборки под распределение модели: когда прогноз уверенный, ядро маленькое; когда распределение «плоское» — ядро расширяется.

Такой подход делает генерацию плавнее, разнообразнее и менее склонной к ошибкам, чем жёстко ограниченный top-k.

Как работает

Алгоритм формирует так называемое «ядро» распределения:

  • Шаг 1: сортировка токенов по вероятности.
  • Шаг 2: накопление вероятностей — ищется минимальное множество токенов S, для которого сумма вероятностей ≥ p.
  • Шаг 3: обнуление остальных токенов — все, кто вне ядра, удаляются из распределения.
  • Шаг 4: нормализация — вероятности внутри S приводятся к сумме 1.
  • Шаг 5: sampling — случайный выбор токена внутри ядра.

Если распределение «острое» (один-два токена имеют очень большую вероятность), ядро получается маленьким. Если распределение «плоское», ядро автоматически расширяется, сохраняя разнообразие.

Где применяется

  • Диалоговые модели с требованием естественности и разнообразия.
  • Генерация художественного текста.
  • Креативные задачи: сценарии, идеи, описания.
  • Мультимодальная генерация: подписи к изображениям, аудио-транскрипции.
  • Генерация вариативного кода и прототипов.

Практические примеры использования

В диалоговых задачах top-p часто даёт более естественные, человеческие ответы: модель выбирает токены из гибкого множества, а не из фиксированного top-k. Например, при p = 0.9 ядро будет включать только те токены, которые в сумме покрывают 90% вероятности — иногда это 3 токена, иногда 20.

В генерации художественного текста top-p помогает избежать чрезмерной формальности или повторяемости. В отличие от top-k, где высокое k может включать шум, top-p адаптируется под форму распределения.

В мультимодальных моделях метод уменьшает ошибки описания изображения: редкие маловероятные токены, которые могут привести к галлюцинациям, почти всегда исключаются ядром.

Настройки и влияние параметров

Значение p определяет степень стохастичности:

  • p = 0.7–0.9 — умеренно творческая и контролируемая речь.
  • p < 0.7 — более жёсткий и формальный стиль.
  • p > 0.9 — разнообразные, но менее структурированные ответы.

В отличие от top-k, параметр p отражает не количество токенов, а долю вероятности.

Отличие от других методов

  • Top-k — фиксированное число токенов; может быть слишком узким или слишком широким.
  • Temperature — изменяет форму распределения, но не ограничивает его.
  • Beam search — детерминирован и оптимизирует правдоподобие, а не разнообразие.
  • Sampling без ограничений — высокая вариативность, часто шум.

На практике top-p часто комбинируют с небольшими значениями top-k, чтобы избежать «раздувания» ядра на равномерных распределениях.

Преимущества и ограничения

  • Плюс: адаптируется под форму распределения.
  • Плюс: даёт более разнообразные и естественные продолжения, чем greedy.
  • Плюс: лучше контролирует шум, чем обычный sampling.
  • Плюс: снижает вероятность галлюцинаций редких токенов.
  • Минус: при слишком высоком p текст становится непредсказуемым.
  • Минус: чувствителен к качеству вероятностной калибровки модели.
  • Минус: не подходит для задач, где требуется строгое правдоподобие.
  • Минус: требует настройки совместно с температурой.

Связанные термины

  • Top-k sampling
  • Temperature
  • Sampling
  • Beam search
  • Greedy decoding
  • Autoregressive decoding
  • Nucleus sampling

Категория термина

Генерация и поведение моделей