Экспоненциальный механизм

Экспоненциальный механизм (англ. exponential mechanism) — это метод проектирования алгоритмов с дифференциальной приватностью. Он был разработан Франком Макшерри[1] и Куналом Талваром[2] в 2007 году. Эта работа была удостоена премии PET Award за выдающиеся исследования в области технологий повышения конфиденциальности в 2009 году[3].

Большая часть первых исследований в области дифференциальной приватности была сосредоточена на вещественных функциях с относительно низкой чувствительностью к изменению данных отдельного индивидуума, полезность которых не страдает из-за небольших аддитивных искажений. Возникает естественный вопрос: как быть, если требуется сохранять более общие свойства? Экспоненциальный механизм позволяет расширить понятие дифференциальной приватности и решить такие задачи, описывая целый класс механизмов, включающий все возможные дифференциально-приватные механизмы.

Механизм

Алгоритм

В общем виде механизм приватности отображает набор из входных данных из области в некоторое множество значений . Это отображение может быть рандомизированным, при этом каждому элементу области соответствует вероятностное распределение на . Не делается никаких предположений о природе и , кроме наличия базовой меры на . Пусть задана функция , которая интуитивно присваивает паре (где и ) некоторый балл; чем больше значение , тем «лучше» соответствие пары . На входе задача механизма — вернуть такое , чтобы функцию было примерно максимизировано. Для этого определим механизм следующим образом:

Определение: для любой функции и меры на :

выбрать с вероятностью, пропорциональной , где .

Это определение означает, что вероятность возврата возрастает экспоненциально с ростом . Если проигнорировать базовую меру , то максимизирующее значение будет иметь наибольшую вероятность. При этом данный механизм является дифференциально-приватным. Чтобы корректно определить , необходимо, чтобы была конечной.

Теорема (дифференциальная приватность): Механизм обеспечивает -дифференциальную приватность, где определяется далее.

Доказательство: вероятность для принять значение равна

.

Если изменение в одном элементе меняет не более чем на , то числитель изменится не более чем в раз, а знаменатель — не менее чем в раз. Соответственно, изменение плотности вероятности не превышает [4].

Точность

Желательно, чтобы случайные значения , возвращаемые механизмом , почти максимизировали . Если принять , доказывается, что вероятность значительного отклонения от мала, если множество с близким к максимальному достаточно велико по мере .

Лемма: Пусть и , тогда не больше , где вероятность берётся по .

Доказательство: вероятность не больше . Обе вероятности имеют одинаковый нормирующий множитель, поэтому

Пусть , тогда получаем нужную оценку.

Теорема (о точности): Для всех выполняется: .

Доказательство: из предыдущей леммы следует, что вероятность того, что балл будет хотя бы , равна . По предположению . Подставляя , получаем вероятность не менее . Умножая на , получаем искомое неравенство.

В вычислениях можно считать, что для любого , нормируя по .

Пример применения

Определение (глобальная чувствительность): Глобальная чувствительность запроса  — это максимальный разрыв между его значениями на двух соседних выборках :

Определение: Запрос-предикат для любого предиката определяется как

Заметим, что для любого предиката [5].

Механизм публикации данных

Следующее утверждение принадлежит Авриму Блуму, Катрине Лигетт и Аарону Роту.

Определение (полезность): Механизм называется -полезным для запросов из класса с вероятностью , если и для любого набора данных , при , выполняется .

Информально, это означает, что с высокой вероятностью запрос вернёт на исходном и синтетическом наборах данных близкие результаты. Рассмотрим типичную задачу Data Mining: имеется база из записей вида -кортежей , где . Пользователь хочет найти линейное полупространство вида  — то есть такие коэффициенты , чтобы максимальное число записей удовлетворяло неравенству. Приводимый дальше алгоритм позволяет сгенерировать синтетическую базу , на которой пользователь сможет обучать те же линейные полупространства — причём с соблюдением дифференциальной приватности.

В этом разделе показано: можно опубликовать набор данных, полезный для концептов из класса с полиномиальной VC-измеримостью, сохранив при этом -дифференциальную приватность, если исходный набор достаточно велик полиномиально относительно VC-измеримости. Формально:

Теорема: Для любого класса функций и данных , если

,

можно построить -полезный набор , сохраняющий -дифференциальную приватность. При этом эффективность алгоритма не гарантируется.

Замечательно, что размер синтетического набора зависит не от исходных данных, а лишь от VC-измеримости концепта и параметра : .

Воспользуемся теоремой о единообразной сходимости из комбинаторики и её следствием для нашей задачи.

Лемма: Для любого набора найдётся размера , такое что .

Доказательство:

Из теоремы единообразной сходимости:

где вероятность берётся по распределению датасета. Если правая часть будет меньше единицы, гарантировано существование нужного множества . Для этого требуется , где  — положительная константа. Поскольку выходной размер , достаточно требовать .

Введём экспоненциальный механизм:

Определение: для функции и входных данных , экспоненциальный механизм выбирает набор с вероятностью, пропорциональной .

Из свойств механизма видно, что, он реализует -дифференциальную приватность.

Положим .

Чтобы механизм был -полезным, требуется, чтобы возвращался такой , что с вероятностью . Всего выходных наборов ; вероятность, что , не более . Следовательно, по неравенству объединения, вероятность возвратить такой не превышает . Поскольку всегда существует с , оно выбирается с вероятностью не менее .

Обозначим

  •  — событие, что механизм возвращает такой , что ;
  •  — событие, что возвращается .
  Тогда
.

Требуя, чтобы это было не меньше , получаем достаточное условие на размер исходных данных:

Таким образом, теорема доказана.

Применение в других областях

В приведённом выше примере экспоненциального механизма генерируется синтетический набор данных, позволяющий отвечать на запросы с хорошей точностью, сохраняя приватность. Альтернативные механизмы, такие как байесовское сэмплирование по апостериорному распределению[6], которые возвращают параметры, а не датасеты, могут сводиться к экспоненциальному механизму[7].

Помимо приватности, экспоненциальный механизм исследуется в теории аукционов и алгоритмах классификации[8]. В частности, в теориях аукционов он позволяет реализовать условия честности.

Примечания