Термин глоссария

Negative sampling

Negative sampling — техника обучения, при которой модель регулярно сталкивается с нерелевантными примерами (negative samples), чтобы научиться различать релевантные и нерелевантные пары.

Определение

Negative sampling — это метод формирования обучающих данных для retrieval, ranking и embedding-моделей, при котором к каждой позитивной паре (запрос–документ, вопрос–passage) добавляется набор негативных примеров. Эти негативы представляют собой документы или фрагменты, которые не должны считаться релевантными. Качество и тип негативных примеров критически влияют на геометрию embedding space и итоговую способность модели различать близкие по смыслу, но неверные ответы.

Как работает

1. Базовый принцип

Модель обучается так, чтобы:

приближать позитивные пары в embedding space;
отталкивать негативные пары;
максимизировать разницу скоринга между ними.

Чаще всего используется contrastive loss (InfoNCE, triplet loss, margin loss).

2. Типы негативных примеров

Random negatives

случайно выбранные документы из корпуса;
дешёвые в генерации;
слабо информативны после начальных этапов обучения.

In-batch negatives

другие примеры из текущего батча;
эффективны и масштабируемы;
стандарт для dense retrieval.

Hard negatives

семантически близкие, но нерелевантные документы;
часто получаются из BM25, dense retrieval или старой модели;
наиболее ценные для качества модели.

False negatives

формально считаются негативами, но фактически релевантны;
опасны для обучения;
приводят к искажению embedding space.

3. Hard negative mining

Hard negatives подбираются через:

BM25 или sparse retrieval;
dense retrieval предыдущей версии модели;
cross-encoder reranker (отбраковка ложных позитивов);
online mining во время обучения.

Чем «ближе» негатив к позитиву, тем сильнее обучающий сигнал — но выше риск ошибок.

4. Баланс негативов

Типичная конфигурация:

1 позитив;
5–20 in-batch negatives;
1–5 hard negatives.

Дисбаланс в сторону слишком жёстких негативов приводит к нестабильности обучения.

Где применяется

Dense retrieval и bi-encoder модели.
Passage retrieval (DPR, QA).
Cross-modal retrieval.
Ranking и reranking модели.
Embedding-модели для RAG.

Практические примеры использования

В DPR и E5 hard negatives берутся из BM25: документы содержат похожие термины, но не отвечают на вопрос. В production-RAG негативы часто генерируются итеративно: модель обучается, затем используется для поиска сложных негативов для следующей итерации обучения.

В cross-modal retrieval hard negatives могут быть визуально похожими изображениями с другим смыслом, что особенно важно для устойчивого выравнивания модальностей.

Ключевые свойства

Определяет форму embedding space.
Критичен для качества dense retrieval.
Позволяет модели учиться на тонких различиях.
Эффект усиливается при hard negatives.
Требует строгого контроля качества данных.

Проблемы и ограничения

False negatives разрушают обучение.
Сложность масштабирования hard negative mining.
Переобучение на узкий тип негативов.
Зависимость от домена и корпуса.
Повышенные требования к вычислительным ресурсам.

Преимущества и ограничения

Плюс: резкое улучшение точности retrieval и ранжирования.
Минус: высокая чувствительность к качеству негативных примеров.

Связанные термины

Dense retrieval
Contrastive learning
Hard negatives
Bi-encoder
Реranker

Категория термина

Работа с данными и векторами

Экосистемы