Экспоненциальный механизм

Экспоненциальный механизм (англ. exponential mechanism) — это метод проектирования алгоритмов с дифференциальной приватностью. Он был разработан Франком Макшерри^[1] и Куналом Талваром^[2] в 2007 году. Эта работа была удостоена премии PET Award за выдающиеся исследования в области технологий повышения конфиденциальности в 2009 году^[3].

Большая часть первых исследований в области дифференциальной приватности была сосредоточена на вещественных функциях с относительно низкой чувствительностью к изменению данных отдельного индивидуума, полезность которых не страдает из-за небольших аддитивных искажений. Возникает естественный вопрос: как быть, если требуется сохранять более общие свойства? Экспоненциальный механизм позволяет расширить понятие дифференциальной приватности и решить такие задачи, описывая целый класс механизмов, включающий все возможные дифференциально-приватные механизмы.

Алгоритм

В общем виде механизм приватности отображает набор из $n$ входных данных из области ${\mathcal {D}}$ в некоторое множество значений ${\mathcal {R}}$ . Это отображение может быть рандомизированным, при этом каждому элементу области ${\mathcal {D}}$ соответствует вероятностное распределение на ${\mathcal {R}}$ . Не делается никаких предположений о природе ${\mathcal {D}}$ и ${\mathcal {R}}$ , кроме наличия базовой меры $\mu$ на ${\mathcal {R}}$ . Пусть задана функция $q:{\mathcal {D}}^{n}\times {\mathcal {R}}\rightarrow \mathbb {R}$ , которая интуитивно присваивает паре $(d,r)$ (где $d\in {\mathcal {D}}^{n}$ и $r\in {\mathcal {R}}$ ) некоторый балл; чем больше значение $q(d,r)$ , тем «лучше» соответствие пары $(d,r)$ . На входе $d\in {\mathcal {D}}^{n}$ задача механизма — вернуть такое $r\in {\mathcal {R}}$ , чтобы функцию $q(d,r)$ было примерно максимизировано. Для этого определим механизм ${\mathcal {E}}_{q}^{\varepsilon }(d)$ следующим образом:

Определение: для любой функции $q:({\mathcal {D}}^{n}\times {\mathcal {R}})\rightarrow \mathbb {R}$ и меры $\mu$ на ${\mathcal {R}}$ :

{\mathcal {E}}_{q}^{\varepsilon }(d):=

выбрать

r

с вероятностью, пропорциональной

e^{\varepsilon q(d,r)}\cdot \mu (r)

, где

d\in {\mathcal {D}}^{n},r\in {\mathcal {R}}

.

Это определение означает, что вероятность возврата $r$ возрастает экспоненциально с ростом $q(d,r)$ . Если проигнорировать базовую меру $\mu$ , то максимизирующее $q(d,r)$ значение будет иметь наибольшую вероятность. При этом данный механизм является дифференциально-приватным. Чтобы корректно определить ${\mathcal {E}}_{q}^{\varepsilon }(d)$ , необходимо, чтобы $\int _{r}e^{\varepsilon q(d,r)}\cdot \mu (r)$ была конечной.

Теорема (дифференциальная приватность): Механизм ${\mathcal {E}}_{q}^{\varepsilon }(d)$ обеспечивает $(2\varepsilon \Delta q)$ -дифференциальную приватность, где $\Delta q$ определяется далее.

Доказательство: вероятность для ${\mathcal {E}}_{q}^{\varepsilon }(d)$ принять значение $r$ равна

{\frac {e^{\varepsilon q(d,r)}\mu (r)}{\int e^{\varepsilon q(d,r)}\mu (r)\,dr}}

.

Если изменение в одном элементе $d$ меняет $q$ не более чем на $\Delta q$ , то числитель изменится не более чем в $e^{\varepsilon \Delta q}$ раз, а знаменатель — не менее чем в $e^{-\varepsilon \Delta q}$ раз. Соответственно, изменение плотности вероятности не превышает $\exp(2\varepsilon \Delta q)$ ^[4].

Точность

Желательно, чтобы случайные значения $r$ , возвращаемые механизмом ${\mathcal {E}}_{q}^{\varepsilon }(d)$ , почти максимизировали $q(d,r)$ . Если принять $\max _{r}q(d,r)=OPT$ , доказывается, что вероятность значительного отклонения от $OPT$ мала, если множество $r$ с близким к максимальному $q$ достаточно велико по мере $\mu$ .

Лемма: Пусть $S_{t}=\{r:q(d,r)>OPT-t\}$ и ${\bar {S}}_{2t}=\{r:q(d,r)\leq OPT-2t\}$ , тогда $p({\bar {S}}_{2t})$ не больше $\exp(-\varepsilon t)/\mu (S_{t})$ , где вероятность берётся по ${\mathcal {R}}$ .

Доказательство: вероятность $p({\bar {S}}_{2t})$ не больше $p({\bar {S}}_{2t})/p(S_{t})$ . Обе вероятности имеют одинаковый нормирующий множитель, поэтому

{\frac {p({\bar {S}}_{2t})}{p(S_{t})}}={\frac {\int _{{\bar {S}}_{2t}}\exp(\varepsilon q(d,r))\mu (r)\,dr}{\int _{S_{t}}\exp(\varepsilon q(d,r))\mu (r)\,dr}}\leq \exp(-\varepsilon t){\frac {\mu ({\bar {S}}_{2t})}{\mu (S_{t})}}.

Пусть $\mu ({\bar {S}}_{2t})\leq 1$ , тогда получаем нужную оценку.

Теорема (о точности): Для всех $t\geq \ln \left({\frac {OPT}{t\mu (S_{t})}}\right)/\varepsilon$ выполняется: $E[q(d,{\mathcal {E}}_{q}^{\varepsilon }(d))]\geq OPT-3t$ .

Доказательство: из предыдущей леммы следует, что вероятность того, что балл будет хотя бы $OPT-2t$ , равна $1-\exp(-\varepsilon t)/\mu (S_{t})$ . По предположению $t\geq \ln \left({\frac {OPT}{t\mu (S_{t})}}\right)/\varepsilon$ . Подставляя $t$ , получаем вероятность не менее $1-t/OPT$ . Умножая на $OPT-2t$ , получаем искомое неравенство.

В вычислениях можно считать, что $\mu (A)\leq 1$ для любого $A\subseteq {\mathcal {R}}$ , нормируя по $\mu ({\mathcal {R}})$ .

Определение (глобальная чувствительность): Глобальная чувствительность запроса $Q$ — это максимальный разрыв между его значениями на двух соседних выборках $D_{1},D_{2}\in {\mathcal {D}}^{n}$ :

GS_{Q}=\max _{D_{1},D_{2}:d(D_{1},D_{2})=1}|Q(D_{1})-Q(D_{2})|.

Определение: Запрос-предикат $Q_{\varphi }$ для любого предиката $\varphi$ определяется как

Q_{\varphi }={\frac {|\{x\in D:\varphi (x)\}|}{|D|}}.

Заметим, что $GS_{Q_{\varphi }}\leq 1/n$ для любого предиката $\varphi$ ^[5].

Механизм публикации данных

Следующее утверждение принадлежит Авриму Блуму, Катрине Лигетт и Аарону Роту.

Определение (полезность): Механизм ${\mathcal {A}}$ называется $(\alpha ,\delta )$ -полезным для запросов из класса $H$ с вероятностью $1-\delta$ , если $\forall h\in H$ и для любого набора данных $D$ , при ${\widehat {D}}={\mathcal {A}}(D)$ , выполняется $|Q_{h}({\widehat {D}})-Q_{h}(D)|\leq \alpha$ .

Информально, это означает, что с высокой вероятностью запрос $Q_{h}$ вернёт на исходном и синтетическом наборах данных близкие результаты. Рассмотрим типичную задачу Data Mining: имеется база $D$ из $n$ записей вида $k$ -кортежей $(x_{1},x_{2},\dots ,x_{k})$ , где $x_{i}\in \{0,1\}$ . Пользователь хочет найти линейное полупространство вида $\pi _{1}x_{1}+\pi _{2}x_{2}+\cdots +\pi _{k-1}x_{k-1}\geq x_{k}$ — то есть такие коэффициенты $\pi _{1},\pi _{2},\dots ,\pi _{k-1}$ , чтобы максимальное число записей удовлетворяло неравенству. Приводимый дальше алгоритм позволяет сгенерировать синтетическую базу ${\widehat {D}}$ , на которой пользователь сможет обучать те же линейные полупространства — причём с соблюдением дифференциальной приватности.

В этом разделе показано: можно опубликовать набор данных, полезный для концептов из класса с полиномиальной VC-измеримостью, сохранив при этом $\varepsilon$ -дифференциальную приватность, если исходный набор достаточно велик полиномиально относительно VC-измеримости. Формально:

Теорема: Для любого класса функций $H$ и данных $D\subset \{0,1\}^{k}$ , если

|D|\geq O\left({\frac {k\cdot \operatorname {VCDim} (H)\log(1/\alpha )}{\alpha ^{3}\varepsilon }}+{\frac {\log(1/\delta )}{\alpha \varepsilon }}\right)

,

можно построить $(\alpha ,\delta )$ -полезный набор ${\widehat {D}}$ , сохраняющий $\varepsilon$ -дифференциальную приватность. При этом эффективность алгоритма не гарантируется.

Замечательно, что размер синтетического набора зависит не от исходных данных, а лишь от VC-измеримости концепта и параметра $\alpha$ : ${\tilde {O}}(\operatorname {VCDim} (H)/\alpha ^{2})$ .

Воспользуемся теоремой о единообразной сходимости из комбинаторики и её следствием для нашей задачи.

Лемма: Для любого набора $D$ найдётся ${\widehat {D}}$ размера $O(\operatorname {VCDim} (H)\log(1/\alpha ))/\alpha ^{2}$ , такое что $\max _{h\in H}|Q_{h}(D)-Q_{h}({\widehat {D}})|\leq \alpha /2$ .

Доказательство:

Из теоремы единообразной сходимости:

{\begin{aligned}&\Pr \left[\,\left|Q_{h}(D)-Q_{h}({\widehat {D}})\right|\geq {\frac {\alpha }{2}}{\text{ для некоторого }}h\in H\right]\\[5pt]\leq {}&2\left({\frac {em}{\operatorname {VCDim} (H)}}\right)^{\operatorname {VCDim} (H)}\cdot e^{-\alpha ^{2}m/8},\end{aligned}}

где вероятность берётся по распределению датасета. Если правая часть будет меньше единицы, гарантировано существование нужного множества ${\widehat {D}}$ . Для этого требуется $m\geq \lambda (\operatorname {VCDim} (H)\log(m/\operatorname {VCDim} (H))/\alpha ^{2})$ , где $\lambda$ — положительная константа. Поскольку выходной размер ${\tilde {O}}(\operatorname {VCDim} (H)/\alpha ^{2})$ , достаточно требовать $m\geq \lambda (\operatorname {VCDim} (H)\log(1/\alpha )/\alpha ^{2})$ .

Введём экспоненциальный механизм:

Определение: для функции $q:((\{0,1\}^{k})^{n}\times (\{0,1\}^{k})^{m})\rightarrow \mathbb {R}$ и входных данных $D$ , экспоненциальный механизм выбирает набор ${\widehat {D}}$ с вероятностью, пропорциональной $e^{q(D,{\widehat {D}})\varepsilon n/2}$ .

Из свойств механизма видно, что, он реализует $(\varepsilon nGS_{q})$ -дифференциальную приватность.

Положим $(q(D),q({\widehat {D}}))=-\max _{h\in H}|Q_{h}(D)-Q_{h}({\widehat {D}})|$ .

Чтобы механизм был $(\alpha ,\delta )$ -полезным, требуется, чтобы возвращался такой ${\widehat {D}}$ , что $q(D,{\widehat {D}})\geq -\alpha$ с вероятностью $1-\delta$ . Всего выходных наборов $2^{km}$ ; вероятность, что $q(D,{\widehat {D}})\leq -\alpha$ , не более $e^{-\varepsilon \alpha n/2}$ . Следовательно, по неравенству объединения, вероятность возвратить такой ${\widehat {D}}$ не превышает $2^{km}e^{-\varepsilon \alpha n/2}$ . Поскольку всегда существует ${\widehat {D}}$ с $q(D,{\widehat {D}})\geq -\alpha /2$ , оно выбирается с вероятностью не менее $e^{-\alpha \varepsilon n/4}$ .

Обозначим

$A$ — событие, что механизм возвращает такой ${\widehat {D}}$ , что $q(D,{\widehat {D}})\geq -\alpha /2$ ;
$B$ — событие, что возвращается $q(D,{\widehat {D}})\leq -\alpha$ .

  Тогда

{\frac {\Pr[A]}{\Pr[B]}}\geq {\frac {e^{-\alpha \varepsilon n/4}}{2^{km}e^{-\alpha \varepsilon n/2}}}={\frac {e^{\alpha \varepsilon n/4}}{2^{km}}}

.

Требуя, чтобы это было не меньше $1/\delta \geq (1-\delta )/\delta$ , получаем достаточное условие на размер исходных данных:

n\geq {\frac {4}{\varepsilon \alpha }}\left(km+\ln {\frac {1}{\delta }}\right)\geq O\left({\frac {d\cdot \operatorname {VCDim} (H)\log(1/\alpha )}{\alpha ^{3}\varepsilon }}+{\frac {\log(1/\delta )}{\alpha \varepsilon }}\right).

Таким образом, теорема доказана.

В приведённом выше примере экспоненциального механизма генерируется синтетический набор данных, позволяющий отвечать на запросы с хорошей точностью, сохраняя приватность. Альтернативные механизмы, такие как байесовское сэмплирование по апостериорному распределению^[6], которые возвращают параметры, а не датасеты, могут сводиться к экспоненциальному механизму^[7].

Помимо приватности, экспоненциальный механизм исследуется в теории аукционов и алгоритмах классификации^[8]. В частности, в теориях аукционов он позволяет реализовать условия честности.

Cynthia Dwork, Aaron Roth. The Algorithmic Foundations of Differential Privacy. 2014.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Экспоненциальный механизм

Механизм

Алгоритм

Точность

Пример применения

Механизм публикации данных

Применение в других областях

Примечания

Литература

Категории