Механизмы дифференциальной приватности с аддитивным шумом

Механизмы дифференциальной приватности с аддитивным шумом (англ. additive noise differential privacy mechanisms) — класс методов, используемых для обеспечения дифференциальной приватности при публикации результатов вычислений по конфиденциальным данным. Такие механизмы добавляют к истинному результату функции специально скорректированный случайный шум, сгенерированный из определённых вероятностных распределений. Добавление шума скрывает влияние любых отдельных записей, тем самым обеспечивая приватность индивидов при сохранении возможностей статистического анализа. Наиболее распространённые распределения для генерации шума — распределение Лапласа и гауссово распределение. Эти механизмы особенно эффективны для функций с вещественными выходными значениями.

Для работы аддитивных механизмов необходимо сначала определить чувствительность функции запроса. Чувствительность — это максимальное изменение ответа функции при добавлении или удалении одной записи о каком-либо лице в наборе данных. Например, для запроса, считающего количество лиц, соответствующих какому-либо критерию, чувствительность равна 1.

Формальное определение

Формально определение чувствительности можно представить следующим образом.

Пусть ${\mathcal {D}}$ — множество всех возможных наборов данных, а $f\colon {\mathcal {D}}\to \mathbb {R}$ — вещественнозначная функция. Чувствительность^[1] функции, обозначаемая $\Delta f$ , определяется формулой

\Delta f=\max |f(x)-f(y)|,

где максимум берётся по всем парам наборов данных $x$ и $y$ из ${\mathcal {D}}$ , различающимся не более чем одним элементом. Для многомерных функций чувствительность, как правило, измеряется в $\ell _{1}$ или $\ell _{2}$ нормах.

В этой статье ${\mathcal {M}}$ обозначает рандомизированный алгоритм, который публикует чувствительную функцию $f$ с гарантией $\epsilon$ - (или $(\epsilon ,\delta )$ -) дифференциальной приватности.

Вещественнозначная функция — это функция, возвращающая вещественное число (например, 0,5 или 1,32).

Механизм Лапласа

Механизм Лапласа, впервые предложенный Дворк и соавт^[1]., добавляет к значению функции шум, сгенерированный из распределения Лапласа:

{\mathcal {M}}_{\mathrm {Lap} }(x,f,\epsilon )=f(x)+\mathrm {Lap} \left(\mu =0,b={\frac {\Delta f}{\epsilon }}\right),

где $\mu$ — математическое ожидание распределения Лапласа, а $b$ — параметр масштаба. Чем больше значение $\epsilon$ (то есть слабее требование к приватности), тем меньше требуется шум; чем меньше $\epsilon$ , тем выше уровень неопределённости относительно исходных данных.

Для доказательства того, что механизм удовлетворяет $\epsilon$ -дифференциальной приватности, достаточно показать, что выходные распределения ${\mathcal {M}}_{\mathrm {Lap} }(x,f,\epsilon )$ и ${\mathcal {M}}_{\mathrm {Lap} }(y,f,\epsilon )$ близки в мультипликативном смысле для всех $x$ и $y$ :

{\begin{aligned}{\frac {\mathrm {Pr} ({\mathcal {M}}_{\mathrm {Lap} }(x,f,\epsilon )=z)}{\mathrm {Pr} ({\mathcal {M}}_{\mathrm {Lap} }(y,f,\epsilon )=z)}}&={\frac {\mathrm {Pr} (f(x)+\mathrm {Lap} (0,{\frac {\Delta f}{\epsilon }})=z)}{\mathrm {Pr} (f(y)+\mathrm {Lap} (0,{\frac {\Delta f}{\epsilon }})=z)}}\\&={\frac {\mathrm {Pr} (\mathrm {Lap} (0,{\frac {\Delta f}{\epsilon }})=z-f(x))}{\mathrm {Pr} (\mathrm {Lap} (0,{\frac {\Delta f}{\epsilon }})=z-f(y))}}\\&={\frac {{\frac {1}{2b}}\exp \left(-{\frac {|z-f(x)|}{b}}\right)}{{\frac {1}{2b}}\exp \left(-{\frac {|z-f(y)|}{b}}\right)}}\\&=\exp \left({\frac {|z-f(y)|-|z-f(x)|}{b}}\right)\\&\leq \exp \left({\frac {|f(y)-f(x)|}{b}}\right)\\&\leq \exp \left({\frac {\Delta f}{b}}\right)=\exp(\epsilon ).\end{aligned}}

\exp(-\epsilon )

Дискретная версия механизма Лапласа — геометрический механизм — является универсально оптимальным по полезности^[2]. Это означает, что для любого априорного распределения (например, дополнительной информации) и любой симметричной и монотонной одномерной функции потерь ожидаемый ущерб от любого дифференциально-приватного механизма не превышает ущерба от применения геометрического механизма с последующей независимой от данных постобработкой. Результат также справедлив для минимаксных (риск-нейтральных) потребителей^[3]. Для многомерных функций потерь универсального механизма не существует^[4].

Механизм Гаусса

Аналогично механизму Лапласа, механизм Гаусса добавляет шум, сгенерированный из гауссова распределения, с дисперсией, определяемой чувствительностью и параметрами приватности. Для любых $\delta \in (0,1)$ и $\epsilon \in (0,1)$ механизм задаётся формулой:

${\mathcal {M}}_{\text{Gauss}}(x,f,\epsilon ,\delta )=f(x)+{\mathcal {N}}\left(\mu =0,\sigma ^{2}={\frac {2\ln(1.25/\delta )\cdot (\Delta f)^{2}}{\epsilon ^{2}}}\right)$ ,

обеспечивая $(\epsilon ,\delta )$ -дифференциальную приватность.

При этом, в отличие от механизма Лапласа, ${\mathcal {M}}_{\text{Gauss}}$ обеспечивает только $(\epsilon ,\delta )$ -дифференциальную приватность при $\epsilon <1$ . Доказательство (см. приложение А к монографии Дворк и Рота^[5]) сводится к тому, что с вероятностью не менее $1-\delta$ выходное распределение ${\mathcal {M}}_{\text{Gauss}}(x,f,\epsilon ,\delta )$ близко к ${\mathcal {M}}_{\text{Gauss}}(y,f,\epsilon ,\delta )$ .

Для многомерных функций $f\colon {\mathcal {D}}\to \mathbb {R} ^{d}$ , где $d\geq 2$ , чувствительность $f$ измеряется в $\ell _{1}$ - или $\ell _{2}$ -норме. Соответствующий механизм Гаусса, обеспечивающий $(\epsilon ,\delta )$ -дифференциальную приватность для такой функции (при условии $\epsilon <1$ ), имеет вид:

${\mathcal {M}}_{\text{Gauss}}(x,f,\epsilon ,\delta )=f(x)+{\mathcal {N}}^{d}\left(\mu =0,\sigma ^{2}={\frac {2\ln(1.25/\delta )\cdot (\Delta _{2}f)^{2}}{\epsilon ^{2}}}\right),$

где $\Delta _{2}f$ — чувствительность функции $f$ в $\ell _{2}$ -норме, а ${\mathcal {N}}^{d}(0,\sigma ^{2})$ — $d$ -мерный вектор, компоненты которого независимы и распределены по закону ${\mathcal {N}}(0,\sigma ^{2})$ . Для доказательства см. приложение А в работе Дворк и Рота^[5].

[1]

[2]

[3]

[4]

[5]

Механизмы дифференциальной приватности с аддитивным шумом

Чувствительность

Формальное определение

Вещественнозначные функции

Механизм Лапласа

Механизм Гаусса

Многомерные функции

Примечания

Категории