Prompt leakage и утечки скрытых инструкций

Термин глоссария

Prompt leakage


Prompt leakage — ситуация, когда модель раскрывает скрытые инструкции, системные подсказки или фрагменты служебного промпта.

Определение

Prompt leakage — это утечка служебных подсказок, внутренних инструкций, скрытых параметров или системных сообщений, которые не должны быть видны пользователю. Утечка происходит, когда модель под давлением ввода, провокационного запроса или ошибки настройки начинает цитировать фрагменты скрытого промпта или описывать своё внутреннее устройство.

Prompt leakage относится к уязвимостям уровня взаимодействия и считается критическим риском при разработке LLM-систем, особенно в продуктах с кастомными системными инструкциями.

Как работает

Утечка возникает из-за механизма вероятностной генерации и особенностей обучения моделей. Если скрытые инструкции стали частью контекста, модель может трактовать их как обычный текст и попытаться продолжить или отразить их в ответе.

Основные причины prompt leakage:

  • Смешение служебного и пользовательского контекста — системные инструкции оказываются внутри prompt window.
  • Опасные запросы — пользователь заставляет модель повторить или «проанализировать» весь previous context.
  • Слабые guardrails — отсутствие фильтров, которые перехватывают попытки запросить служебную информацию.
  • Прямое обращение к системной роли — вводы вроде «что было в начале диалога», «отдай мне свой prompt».
  • Неверная настройка API — передача скрытых инструкций внутри user-сообщений.

В результате модель может:

  • скрытый системный текст воспроизвести дословно;
  • пересказать его смысл;
  • описывать свои ограничения, которые не должны быть видны пользователю;
  • раскрывать архитектуру или внутреннюю политику.

Где применяется анализ prompt leakage

  • Разработка LLM-продуктов с кастомным поведением.
  • Оценка уязвимостей в чатботах и ассистентах.
  • Тестирование безопасности enterprise-моделей.
  • Аудит RAG-систем с внешней памятью.
  • Агентные пайплайны, где важен контроль скрытых шагов.
  • Безопасность систем с несколькими ролями: system, developer, assistant.

Практические примеры использования

В некоторых продуктах скрытые инструкции описывают формат вывода, запреты, ограничения и целевое поведение. Если модель начинает «объяснять свои правила» или цитировать внутренние шаблоны, это и есть prompt leakage.

В системах с agent reasoning утечка может проявляться как раскрытие скрытых мыслительных шагов, например описания плана, который модель не должна показывать пользователю.

В enterprise-системах prompt leakage приводит к утечке конфиденциальных политик и внутренних процессов, что повышает регуляторные риски.

Техники защиты

Предотвращение утечек требует комбинации архитектурных, инфраструктурных и поведенческих мер:

  • Чёткое разделение ролей — системные и разработческие сообщения не должны попадать в user-контекст.
  • Guardrails — фильтры и проверки, блокирующие запросы на цитирование скрытого контекста.
  • Post-processing — удаление или редактирование опасных частей ответа.
  • Sandbox-проверки — тесты на попытки выуживания скрытых инструкций.
  • RAG-фильтрация — защита retrieval-компонента от утечки приватных документов.
  • Многоуровневые подсказки — слои инструкций, разделённые между system и tool-контекстами.

Преимущества и ограничения контроля prompt leakage

  • Плюс: защищает конфиденциальность системных инструкций.
  • Плюс: снижает риск эксплойтов на основе jailbreaking.
  • Плюс: повышает качество пользовательского опыта за счёт чистого вывода.
  • Плюс: важный компонент комплаенса в корпоративных продуктах.
  • Минус: слишком агрессивные фильтры могут прерывать легитимные запросы.
  • Минус: сложно балансировать между безопасностью и функциональностью.
  • Минус: часть моделей всё равно склонна к утечкам при провокационных запросах.
  • Минус: требует регулярного пересмотра по мере обновления модели.

Связанные термины

  • Safety guardrails
  • Jailbreaking
  • Prompt injection
  • System prompt
  • Alignment
  • Content filtering
  • Model constraints

Категория термина

Безопасность и взаимодействие