Hard negatives в обучении retrieval моделей

Термин глоссария

Hard negatives


Hard negatives — нерелевантные примеры, максимально близкие к позитивным по семантике, используемые при обучении retrieval и ranking моделей для формирования точных границ embedding space.

Определение

Hard negatives — это специально подобранные негативные примеры (документы, passages, изображения), которые по смыслу близки к запросу, но не являются корректным ответом. В отличие от случайных негативов, hard negatives создают сильный обучающий сигнал, заставляя модель различать тонкие семантические различия. Они являются ключевым фактором качества dense retrieval, bi-encoder моделей и систем passage retrieval.

Как работает

1. Роль в обучении

При contrastive обучении модель оптимизируется так, чтобы:

  • позитивные пары (query–document) были максимально близки;
  • hard negatives располагались заметно дальше, чем позитивы;
  • граница между «почти правильным» и «правильным» была чёткой.

Именно hard negatives формируют «крутые» градиенты и ускоряют сходимость.

2. Источники hard negatives

  • BM25 / sparse retrieval — документы с совпадающими терминами, но неверным содержанием.
  • Dense retrieval — ближайшие соседи предыдущей версии модели.
  • Passage retrieval — соседние по теме фрагменты без ответа.
  • Cross-encoder reranker — фильтрация ложных позитивов и отбор «почти релевантных» кандидатов.

3. Hard negative mining

Процесс подбора включает:

  • поиск топ-k кандидатов по слабой модели;
  • исключение истинно релевантных passages;
  • отбор семантически близких, но неправильных примеров;
  • итеративное обновление негативов по мере обучения модели.

4. Баланс сложности

Слишком лёгкие негативы дают слабый сигнал, слишком жёсткие — приводят к деградации обучения. Практика требует баланса:

  • несколько hard negatives на каждый позитив;
  • добавление in-batch negatives;
  • регулярная переоценка качества негативов.

Где применяется

  • Dense retrieval и bi-encoder модели.
  • Passage retrieval и QA.
  • Cross-modal retrieval.
  • RAG retrieval-слой.
  • Ranking и reranking системы.

Практические примеры использования

В DPR hard negatives часто берутся из BM25: абзацы содержат ключевые слова вопроса, но не ответ. В production-RAG hard negatives генерируются итеративно: модель используется для поиска ближайших кандидатов, которые затем вручную или автоматически маркируются как нерелевантные.

В cross-modal retrieval hard negatives могут быть визуально похожие изображения с иным смыслом (например, разные модели одного объекта), что повышает устойчивость выравнивания модальностей.

Ключевые свойства

  • Максимально близки к позитивам по семантике.
  • Создают сильный обучающий сигнал.
  • Определяют качество границ embedding space.
  • Критичны для fine-grained различий.
  • Требуют постоянного обновления.

Проблемы и ограничения

  • Высокий риск false negatives.
  • Сложность автоматической валидации.
  • Рост вычислительных затрат на mining.
  • Переобучение на узкие паттерны.
  • Чувствительность к домену данных.

Преимущества и ограничения

  • Плюс: резкое улучшение точности и устойчивости retrieval.
  • Минус: высокая стоимость и риск ошибок при подборе.

Связанные термины

  • Negative sampling
  • Dense retrieval
  • Contrastive learning
  • Bi-encoder
  • Reranker

Категория термина

Работа с данными и векторами