Negative sampling в обучении retrieval моделей

Термин глоссария

Negative sampling


Negative sampling — техника обучения, при которой модель регулярно сталкивается с нерелевантными примерами (negative samples), чтобы научиться различать релевантные и нерелевантные пары.

Определение

Negative sampling — это метод формирования обучающих данных для retrieval, ranking и embedding-моделей, при котором к каждой позитивной паре (запрос–документ, вопрос–passage) добавляется набор негативных примеров. Эти негативы представляют собой документы или фрагменты, которые не должны считаться релевантными. Качество и тип негативных примеров критически влияют на геометрию embedding space и итоговую способность модели различать близкие по смыслу, но неверные ответы.

Как работает

1. Базовый принцип

Модель обучается так, чтобы:

  • приближать позитивные пары в embedding space;
  • отталкивать негативные пары;
  • максимизировать разницу скоринга между ними.

Чаще всего используется contrastive loss (InfoNCE, triplet loss, margin loss).

2. Типы негативных примеров

Random negatives

  • случайно выбранные документы из корпуса;
  • дешёвые в генерации;
  • слабо информативны после начальных этапов обучения.

In-batch negatives

  • другие примеры из текущего батча;
  • эффективны и масштабируемы;
  • стандарт для dense retrieval.

Hard negatives

  • семантически близкие, но нерелевантные документы;
  • часто получаются из BM25, dense retrieval или старой модели;
  • наиболее ценные для качества модели.

False negatives

  • формально считаются негативами, но фактически релевантны;
  • опасны для обучения;
  • приводят к искажению embedding space.

3. Hard negative mining

Hard negatives подбираются через:

  • BM25 или sparse retrieval;
  • dense retrieval предыдущей версии модели;
  • cross-encoder reranker (отбраковка ложных позитивов);
  • online mining во время обучения.

Чем «ближе» негатив к позитиву, тем сильнее обучающий сигнал — но выше риск ошибок.

4. Баланс негативов

Типичная конфигурация:

  • 1 позитив;
  • 5–20 in-batch negatives;
  • 1–5 hard negatives.

Дисбаланс в сторону слишком жёстких негативов приводит к нестабильности обучения.

Где применяется

  • Dense retrieval и bi-encoder модели.
  • Passage retrieval (DPR, QA).
  • Cross-modal retrieval.
  • Ranking и reranking модели.
  • Embedding-модели для RAG.

Практические примеры использования

В DPR и E5 hard negatives берутся из BM25: документы содержат похожие термины, но не отвечают на вопрос. В production-RAG негативы часто генерируются итеративно: модель обучается, затем используется для поиска сложных негативов для следующей итерации обучения.

В cross-modal retrieval hard negatives могут быть визуально похожими изображениями с другим смыслом, что особенно важно для устойчивого выравнивания модальностей.

Ключевые свойства

  • Определяет форму embedding space.
  • Критичен для качества dense retrieval.
  • Позволяет модели учиться на тонких различиях.
  • Эффект усиливается при hard negatives.
  • Требует строгого контроля качества данных.

Проблемы и ограничения

  • False negatives разрушают обучение.
  • Сложность масштабирования hard negative mining.
  • Переобучение на узкий тип негативов.
  • Зависимость от домена и корпуса.
  • Повышенные требования к вычислительным ресурсам.

Преимущества и ограничения

  • Плюс: резкое улучшение точности retrieval и ранжирования.
  • Минус: высокая чувствительность к качеству негативных примеров.

Связанные термины

  • Dense retrieval
  • Contrastive learning
  • Hard negatives
  • Bi-encoder
  • Reranker

Категория термина

Работа с данными и векторами