Термин глоссария

Реtrieval hallucination

Реtrieval hallucination — класс ошибок, при которых языковая модель строит ответы на основе формально извлечённого, но фактически нерелевантного или вводящего в заблуждение контекста.

Определение

Реtrieval hallucination — это тип системной ошибки в retrieval-augmented системах (RAG), при котором LLM использует некорректные фрагменты документов, попавшие в контекст из-за ошибок retrieval или ранжирования. В отличие от «чистой» генеративной галлюцинации, здесь модель не выдумывает факты из воздуха, а опирается на реально извлечённые данные, которые не соответствуют исходному запросу.

Проблема особенно опасна, поскольку ответы выглядят обоснованными и «подкреплёнными источниками», но логически или фактически неверны.

Как работает

1. Источник ошибки

Реtrieval hallucination возникает на стыке retrieval pipeline и генерации:

первичный retrieval возвращает слабо релевантные чанки;
reranker недостаточно агрессивен или отсутствует;
LLM воспринимает любой переданный контекст как достоверный.

2. Типовые сценарии

Semantic mismatch — документ похож по теме, но отвечает на другой вопрос.
Partial relevance — часть текста релевантна, ключевой фрагмент — нет.
Entity confusion — совпадение терминов при разных сущностях.
Temporal mismatch — устаревшая информация воспринимается как актуальная.

3. Поведение LLM

LLM не проверяет истинность источников. Если контекст передан, модель:

пытается логически согласовать ответ;
заполняет пробелы генерацией;
усиливает уверенность формулировок.

Это приводит к убедительным, но неверным ответам.

Где применяется

RAG-системы.
Корпоративные ассистенты.
Юридические и медицинские QA-системы.
Поиск по технической документации.
LLM-агенты с доступом к базам знаний.

Практические примеры использования

Типовой пример: вопрос о конкретной версии API. Реtrieval возвращает документацию старой версии с похожими терминами. LLM строит корректно выглядящий ответ, но с устаревшими параметрами. Формально контекст был, но он не соответствовал запросу.

В юридических системах retrieval hallucination может приводить к ссылкам на нерелевантные судебные решения с похожими формулировками, но другим предметом спора.

Ключевые свойства

Происходит не в генерации, а в retrieval.
Трудно обнаруживается автоматически.
Усиливается уверенностью LLM.
Часто маскируется под корректный ответ.
Критична для high-stakes доменов.

Проблемы и ограничения

Невозможность полной валидации источников.
Сильная зависимость от качества chunking и reranking.
Ошибки семантического поиска.
Сложность автоматического детекта.
Накопление ошибок при сложных запросах.

Преимущества и ограничения

Плюс: выявление этого класса ошибок позволяет целенаправленно улучшать retrieval.
Минус: полностью устранить retrieval hallucination практически невозможно.

Связанные термины

RAG
Реtrieval pipeline
Реranker
Document chunking
LLM hallucination

Категория термина

Работа с данными и векторами

Экосистемы