Hard negatives — нерелевантные примеры, максимально близкие к позитивным по семантике, используемые при обучении retrieval и ranking моделей для формирования точных границ embedding space.
Определение
Hard negatives — это специально подобранные негативные примеры (документы, passages, изображения), которые по смыслу близки к запросу, но не являются корректным ответом. В отличие от случайных негативов, hard negatives создают сильный обучающий сигнал, заставляя модель различать тонкие семантические различия. Они являются ключевым фактором качества dense retrieval, bi-encoder моделей и систем passage retrieval.
Как работает
1. Роль в обучении
При contrastive обучении модель оптимизируется так, чтобы:
- позитивные пары (query–document) были максимально близки;
- hard negatives располагались заметно дальше, чем позитивы;
- граница между «почти правильным» и «правильным» была чёткой.
Именно hard negatives формируют «крутые» градиенты и ускоряют сходимость.
2. Источники hard negatives
- BM25 / sparse retrieval — документы с совпадающими терминами, но неверным содержанием.
- Dense retrieval — ближайшие соседи предыдущей версии модели.
- Passage retrieval — соседние по теме фрагменты без ответа.
- Cross-encoder reranker — фильтрация ложных позитивов и отбор «почти релевантных» кандидатов.
3. Hard negative mining
Процесс подбора включает:
- поиск топ-k кандидатов по слабой модели;
- исключение истинно релевантных passages;
- отбор семантически близких, но неправильных примеров;
- итеративное обновление негативов по мере обучения модели.
4. Баланс сложности
Слишком лёгкие негативы дают слабый сигнал, слишком жёсткие — приводят к деградации обучения. Практика требует баланса:
- несколько hard negatives на каждый позитив;
- добавление in-batch negatives;
- регулярная переоценка качества негативов.
Где применяется
- Dense retrieval и bi-encoder модели.
- Passage retrieval и QA.
- Cross-modal retrieval.
- RAG retrieval-слой.
- Ranking и reranking системы.
Практические примеры использования
В DPR hard negatives часто берутся из BM25: абзацы содержат ключевые слова вопроса, но не ответ. В production-RAG hard negatives генерируются итеративно: модель используется для поиска ближайших кандидатов, которые затем вручную или автоматически маркируются как нерелевантные.
В cross-modal retrieval hard negatives могут быть визуально похожие изображения с иным смыслом (например, разные модели одного объекта), что повышает устойчивость выравнивания модальностей.
Ключевые свойства
- Максимально близки к позитивам по семантике.
- Создают сильный обучающий сигнал.
- Определяют качество границ embedding space.
- Критичны для fine-grained различий.
- Требуют постоянного обновления.
Проблемы и ограничения
- Высокий риск false negatives.
- Сложность автоматической валидации.
- Рост вычислительных затрат на mining.
- Переобучение на узкие паттерны.
- Чувствительность к домену данных.
Преимущества и ограничения
- Плюс: резкое улучшение точности и устойчивости retrieval.
- Минус: высокая стоимость и риск ошибок при подборе.
Связанные термины
- Negative sampling
- Dense retrieval
- Contrastive learning
- Bi-encoder
- Reranker