Термин глоссария

Differential privacy

Differential privacy — метод, который скрывает вклад отдельных данных в вычисление, добавляя контролируемый шум и обеспечивая формальную защиту приватности.

Определение

Differential privacy — это подход, гарантирующий, что результат вычисления практически не изменится, даже если в набор данных присутствует или отсутствует запись конкретного пользователя. Механизм добавляет математически контролируемый шум к статистикам или градиентам, так что невозможно определить вклад отдельного объекта.

Способ используется для защиты приватности в обучении моделей, аналитике данных и любых вычислениях, где есть риск утечки информации через результат.

Как работает

Differential privacy строится на формальной гарантии: изменение одной записи в данных не должно существенно менять результат вычисления. Основные элементы:

эпсилон (ε) — параметр, задающий уровень приватности; чем ниже ε, тем сильнее защита;
добавление шума — случайный шум вводится в градиенты, статистики или ответы функций;
контроль чувствительности — вычисление ограничивается так, чтобы вклад одного объекта был мал;
композиция — учёт того, что многократные запросы уменьшают общий уровень приватности;
механизмы Лапласа и Гаусса — стандартные способы шумового маскирования.

В обучении моделей используется подход DP-SGD: шум добавляется к градиентам, а нормы градиентов ограничиваются. Это предотвращает восстановление исходных данных через анализ весов модели.

Где применяется

Обучение моделей на чувствительных данных.
Аналитика больших наборов данных.
Федеративное обучение с защитой обновлений.
Корпоративные системы, работающие с персональными данными.
Обработка медицинских, финансовых и юридических документов.
Продукты, требующие формальных гарантий приватности.

Практические примеры использования

При обучении локальных моделей в мобильных устройствах differential privacy применяется для защиты пользовательских данных. Шум добавляется к градиентам перед отправкой на сервер, исключая раскрытие конкретных сообщений или действий.

В медицинских системах аналитические запросы выполняются с шумом, что позволяет изучать агрегированные статистики без риска определить пациента по одной записи.

В федеративном обучении differential privacy используется совместно с secure aggregation: обновления скрыты и зашифрованы, а шумилизация минимизирует риск восстановления исходных данных.

В корпоративных продуктах метод позволяет выполнять аналитику по пользовательским данным, соблюдая строгие требования безопасности и формальные стандарты приватности.

Преимущества и ограничения

Плюс: формальная защита приватности.
Плюс: противодействие атакам восстановления данных.
Плюс: работает на уровне статистик и градиентов.
Плюс: подходит для распределённого обучения.
Минус: снижение точности из-за шума.
Минус: сложность выбора параметров ε и уровня шума.
Минус: сложность оценки рисков композиции.
Минус: высокая вычислительная стоимость при строгих настройках.

Связанные термины

Federated learning
Secure aggregation
Model robustness
Реgularization
Privacy-by-design
Noise injection
Membership inference attacks

Категория термина

Безопасность и взаимодействие

Экосистемы