Negative sampling — техника обучения, при которой модель регулярно сталкивается с нерелевантными примерами (negative samples), чтобы научиться различать релевантные и нерелевантные пары.
Определение
Negative sampling — это метод формирования обучающих данных для retrieval, ranking и embedding-моделей, при котором к каждой позитивной паре (запрос–документ, вопрос–passage) добавляется набор негативных примеров. Эти негативы представляют собой документы или фрагменты, которые не должны считаться релевантными. Качество и тип негативных примеров критически влияют на геометрию embedding space и итоговую способность модели различать близкие по смыслу, но неверные ответы.
Как работает
1. Базовый принцип
Модель обучается так, чтобы:
- приближать позитивные пары в embedding space;
- отталкивать негативные пары;
- максимизировать разницу скоринга между ними.
Чаще всего используется contrastive loss (InfoNCE, triplet loss, margin loss).
2. Типы негативных примеров
Random negatives
- случайно выбранные документы из корпуса;
- дешёвые в генерации;
- слабо информативны после начальных этапов обучения.
In-batch negatives
- другие примеры из текущего батча;
- эффективны и масштабируемы;
- стандарт для dense retrieval.
Hard negatives
- семантически близкие, но нерелевантные документы;
- часто получаются из BM25, dense retrieval или старой модели;
- наиболее ценные для качества модели.
False negatives
- формально считаются негативами, но фактически релевантны;
- опасны для обучения;
- приводят к искажению embedding space.
3. Hard negative mining
Hard negatives подбираются через:
- BM25 или sparse retrieval;
- dense retrieval предыдущей версии модели;
- cross-encoder reranker (отбраковка ложных позитивов);
- online mining во время обучения.
Чем «ближе» негатив к позитиву, тем сильнее обучающий сигнал — но выше риск ошибок.
4. Баланс негативов
Типичная конфигурация:
- 1 позитив;
- 5–20 in-batch negatives;
- 1–5 hard negatives.
Дисбаланс в сторону слишком жёстких негативов приводит к нестабильности обучения.
Где применяется
- Dense retrieval и bi-encoder модели.
- Passage retrieval (DPR, QA).
- Cross-modal retrieval.
- Ranking и reranking модели.
- Embedding-модели для RAG.
Практические примеры использования
В DPR и E5 hard negatives берутся из BM25: документы содержат похожие термины, но не отвечают на вопрос. В production-RAG негативы часто генерируются итеративно: модель обучается, затем используется для поиска сложных негативов для следующей итерации обучения.
В cross-modal retrieval hard negatives могут быть визуально похожими изображениями с другим смыслом, что особенно важно для устойчивого выравнивания модальностей.
Ключевые свойства
- Определяет форму embedding space.
- Критичен для качества dense retrieval.
- Позволяет модели учиться на тонких различиях.
- Эффект усиливается при hard negatives.
- Требует строгого контроля качества данных.
Проблемы и ограничения
- False negatives разрушают обучение.
- Сложность масштабирования hard negative mining.
- Переобучение на узкий тип негативов.
- Зависимость от домена и корпуса.
- Повышенные требования к вычислительным ресурсам.
Преимущества и ограничения
- Плюс: резкое улучшение точности retrieval и ранжирования.
- Минус: высокая чувствительность к качеству негативных примеров.
Связанные термины
- Dense retrieval
- Contrastive learning
- Hard negatives
- Bi-encoder
- Reranker