Differential privacy: формальная защита данных

Термин глоссария

Differential privacy


Differential privacy — метод, который скрывает вклад отдельных данных в вычисление, добавляя контролируемый шум и обеспечивая формальную защиту приватности.

Определение

Differential privacy — это подход, гарантирующий, что результат вычисления практически не изменится, даже если в набор данных присутствует или отсутствует запись конкретного пользователя. Механизм добавляет математически контролируемый шум к статистикам или градиентам, так что невозможно определить вклад отдельного объекта.

Способ используется для защиты приватности в обучении моделей, аналитике данных и любых вычислениях, где есть риск утечки информации через результат.

Как работает

Differential privacy строится на формальной гарантии: изменение одной записи в данных не должно существенно менять результат вычисления. Основные элементы:

  • эпсилон (ε) — параметр, задающий уровень приватности; чем ниже ε, тем сильнее защита;
  • добавление шума — случайный шум вводится в градиенты, статистики или ответы функций;
  • контроль чувствительности — вычисление ограничивается так, чтобы вклад одного объекта был мал;
  • композиция — учёт того, что многократные запросы уменьшают общий уровень приватности;
  • механизмы Лапласа и Гаусса — стандартные способы шумового маскирования.

В обучении моделей используется подход DP-SGD: шум добавляется к градиентам, а нормы градиентов ограничиваются. Это предотвращает восстановление исходных данных через анализ весов модели.

Где применяется

  • Обучение моделей на чувствительных данных.
  • Аналитика больших наборов данных.
  • Федеративное обучение с защитой обновлений.
  • Корпоративные системы, работающие с персональными данными.
  • Обработка медицинских, финансовых и юридических документов.
  • Продукты, требующие формальных гарантий приватности.

Практические примеры использования

При обучении локальных моделей в мобильных устройствах differential privacy применяется для защиты пользовательских данных. Шум добавляется к градиентам перед отправкой на сервер, исключая раскрытие конкретных сообщений или действий.

В медицинских системах аналитические запросы выполняются с шумом, что позволяет изучать агрегированные статистики без риска определить пациента по одной записи.

В федеративном обучении differential privacy используется совместно с secure aggregation: обновления скрыты и зашифрованы, а шумилизация минимизирует риск восстановления исходных данных.

В корпоративных продуктах метод позволяет выполнять аналитику по пользовательским данным, соблюдая строгие требования безопасности и формальные стандарты приватности.

Преимущества и ограничения

  • Плюс: формальная защита приватности.
  • Плюс: противодействие атакам восстановления данных.
  • Плюс: работает на уровне статистик и градиентов.
  • Плюс: подходит для распределённого обучения.
  • Минус: снижение точности из-за шума.
  • Минус: сложность выбора параметров ε и уровня шума.
  • Минус: сложность оценки рисков композиции.
  • Минус: высокая вычислительная стоимость при строгих настройках.

Связанные термины

  • Federated learning
  • Secure aggregation
  • Model robustness
  • Реgularization
  • Privacy-by-design
  • Noise injection
  • Membership inference attacks

Категория термина

Безопасность и взаимодействие