Differential privacy — метод, который скрывает вклад отдельных данных в вычисление, добавляя контролируемый шум и обеспечивая формальную защиту приватности.
Определение
Differential privacy — это подход, гарантирующий, что результат вычисления практически не изменится, даже если в набор данных присутствует или отсутствует запись конкретного пользователя. Механизм добавляет математически контролируемый шум к статистикам или градиентам, так что невозможно определить вклад отдельного объекта.
Способ используется для защиты приватности в обучении моделей, аналитике данных и любых вычислениях, где есть риск утечки информации через результат.
Как работает
Differential privacy строится на формальной гарантии: изменение одной записи в данных не должно существенно менять результат вычисления. Основные элементы:
- эпсилон (ε) — параметр, задающий уровень приватности; чем ниже ε, тем сильнее защита;
- добавление шума — случайный шум вводится в градиенты, статистики или ответы функций;
- контроль чувствительности — вычисление ограничивается так, чтобы вклад одного объекта был мал;
- композиция — учёт того, что многократные запросы уменьшают общий уровень приватности;
- механизмы Лапласа и Гаусса — стандартные способы шумового маскирования.
В обучении моделей используется подход DP-SGD: шум добавляется к градиентам, а нормы градиентов ограничиваются. Это предотвращает восстановление исходных данных через анализ весов модели.
Где применяется
- Обучение моделей на чувствительных данных.
- Аналитика больших наборов данных.
- Федеративное обучение с защитой обновлений.
- Корпоративные системы, работающие с персональными данными.
- Обработка медицинских, финансовых и юридических документов.
- Продукты, требующие формальных гарантий приватности.
Практические примеры использования
При обучении локальных моделей в мобильных устройствах differential privacy применяется для защиты пользовательских данных. Шум добавляется к градиентам перед отправкой на сервер, исключая раскрытие конкретных сообщений или действий.
В медицинских системах аналитические запросы выполняются с шумом, что позволяет изучать агрегированные статистики без риска определить пациента по одной записи.
В федеративном обучении differential privacy используется совместно с secure aggregation: обновления скрыты и зашифрованы, а шумилизация минимизирует риск восстановления исходных данных.
В корпоративных продуктах метод позволяет выполнять аналитику по пользовательским данным, соблюдая строгие требования безопасности и формальные стандарты приватности.
Преимущества и ограничения
- Плюс: формальная защита приватности.
- Плюс: противодействие атакам восстановления данных.
- Плюс: работает на уровне статистик и градиентов.
- Плюс: подходит для распределённого обучения.
- Минус: снижение точности из-за шума.
- Минус: сложность выбора параметров ε и уровня шума.
- Минус: сложность оценки рисков композиции.
- Минус: высокая вычислительная стоимость при строгих настройках.
Связанные термины
- Federated learning
- Secure aggregation
- Model robustness
- Реgularization
- Privacy-by-design
- Noise injection
- Membership inference attacks