Термин глоссария

Hard negatives

Hard negatives — нерелевантные примеры, максимально близкие к позитивным по семантике, используемые при обучении retrieval и ranking моделей для формирования точных границ embedding space.

Определение

Hard negatives — это специально подобранные негативные примеры (документы, passages, изображения), которые по смыслу близки к запросу, но не являются корректным ответом. В отличие от случайных негативов, hard negatives создают сильный обучающий сигнал, заставляя модель различать тонкие семантические различия. Они являются ключевым фактором качества dense retrieval, bi-encoder моделей и систем passage retrieval.

Как работает

1. Роль в обучении

При contrastive обучении модель оптимизируется так, чтобы:

позитивные пары (query–document) были максимально близки;
hard negatives располагались заметно дальше, чем позитивы;
граница между «почти правильным» и «правильным» была чёткой.

Именно hard negatives формируют «крутые» градиенты и ускоряют сходимость.

2. Источники hard negatives

BM25 / sparse retrieval — документы с совпадающими терминами, но неверным содержанием.
Dense retrieval — ближайшие соседи предыдущей версии модели.
Passage retrieval — соседние по теме фрагменты без ответа.
Cross-encoder reranker — фильтрация ложных позитивов и отбор «почти релевантных» кандидатов.

3. Hard negative mining

Процесс подбора включает:

поиск топ-k кандидатов по слабой модели;
исключение истинно релевантных passages;
отбор семантически близких, но неправильных примеров;
итеративное обновление негативов по мере обучения модели.

4. Баланс сложности

Слишком лёгкие негативы дают слабый сигнал, слишком жёсткие — приводят к деградации обучения. Практика требует баланса:

несколько hard negatives на каждый позитив;
добавление in-batch negatives;
регулярная переоценка качества негативов.

Где применяется

Dense retrieval и bi-encoder модели.
Passage retrieval и QA.
Cross-modal retrieval.
RAG retrieval-слой.
Ranking и reranking системы.

Практические примеры использования

В DPR hard negatives часто берутся из BM25: абзацы содержат ключевые слова вопроса, но не ответ. В production-RAG hard negatives генерируются итеративно: модель используется для поиска ближайших кандидатов, которые затем вручную или автоматически маркируются как нерелевантные.

В cross-modal retrieval hard negatives могут быть визуально похожие изображения с иным смыслом (например, разные модели одного объекта), что повышает устойчивость выравнивания модальностей.

Ключевые свойства

Максимально близки к позитивам по семантике.
Создают сильный обучающий сигнал.
Определяют качество границ embedding space.
Критичны для fine-grained различий.
Требуют постоянного обновления.

Проблемы и ограничения

Высокий риск false negatives.
Сложность автоматической валидации.
Рост вычислительных затрат на mining.
Переобучение на узкие паттерны.
Чувствительность к домену данных.

Преимущества и ограничения

Плюс: резкое улучшение точности и устойчивости retrieval.
Минус: высокая стоимость и риск ошибок при подборе.

Связанные термины

Negative sampling
Dense retrieval
Contrastive learning
Bi-encoder
Реranker

Категория термина

Работа с данными и векторами

Экосистемы