Экспоненциальный механизм
Экспоненциальный механизм (англ. exponential mechanism) — это метод проектирования алгоритмов с дифференциальной приватностью. Он был разработан Франком Макшерри[1] и Куналом Талваром[2] в 2007 году. Эта работа была удостоена премии PET Award за выдающиеся исследования в области технологий повышения конфиденциальности в 2009 году[3].
Большая часть первых исследований в области дифференциальной приватности была сосредоточена на вещественных функциях с относительно низкой чувствительностью к изменению данных отдельного индивидуума, полезность которых не страдает из-за небольших аддитивных искажений. Возникает естественный вопрос: как быть, если требуется сохранять более общие свойства? Экспоненциальный механизм позволяет расширить понятие дифференциальной приватности и решить такие задачи, описывая целый класс механизмов, включающий все возможные дифференциально-приватные механизмы.
Механизм
В общем виде механизм приватности отображает набор из входных данных из области в некоторое множество значений . Это отображение может быть рандомизированным, при этом каждому элементу области соответствует вероятностное распределение на . Не делается никаких предположений о природе и , кроме наличия базовой меры на . Пусть задана функция , которая интуитивно присваивает паре (где и ) некоторый балл; чем больше значение , тем «лучше» соответствие пары . На входе задача механизма — вернуть такое , чтобы функцию было примерно максимизировано. Для этого определим механизм следующим образом:
Определение: для любой функции и меры на :
- выбрать с вероятностью, пропорциональной , где .
Это определение означает, что вероятность возврата возрастает экспоненциально с ростом . Если проигнорировать базовую меру , то максимизирующее значение будет иметь наибольшую вероятность. При этом данный механизм является дифференциально-приватным. Чтобы корректно определить , необходимо, чтобы была конечной.
Теорема (дифференциальная приватность): Механизм обеспечивает -дифференциальную приватность, где определяется далее.
Доказательство: вероятность для принять значение равна
- .
Если изменение в одном элементе меняет не более чем на , то числитель изменится не более чем в раз, а знаменатель — не менее чем в раз. Соответственно, изменение плотности вероятности не превышает [4].
Желательно, чтобы случайные значения , возвращаемые механизмом , почти максимизировали . Если принять , доказывается, что вероятность значительного отклонения от мала, если множество с близким к максимальному достаточно велико по мере .
Лемма: Пусть и , тогда не больше , где вероятность берётся по .
Доказательство: вероятность не больше . Обе вероятности имеют одинаковый нормирующий множитель, поэтому
Пусть , тогда получаем нужную оценку.
Теорема (о точности): Для всех выполняется: .
Доказательство: из предыдущей леммы следует, что вероятность того, что балл будет хотя бы , равна . По предположению . Подставляя , получаем вероятность не менее . Умножая на , получаем искомое неравенство.
В вычислениях можно считать, что для любого , нормируя по .
Пример применения
Определение (глобальная чувствительность): Глобальная чувствительность запроса — это максимальный разрыв между его значениями на двух соседних выборках :
Определение: Запрос-предикат для любого предиката определяется как
Заметим, что для любого предиката [5].
Следующее утверждение принадлежит Авриму Блуму, Катрине Лигетт и Аарону Роту.
Определение (полезность): Механизм называется -полезным для запросов из класса с вероятностью , если и для любого набора данных , при , выполняется .
Информально, это означает, что с высокой вероятностью запрос вернёт на исходном и синтетическом наборах данных близкие результаты. Рассмотрим типичную задачу Data Mining: имеется база из записей вида -кортежей , где . Пользователь хочет найти линейное полупространство вида — то есть такие коэффициенты , чтобы максимальное число записей удовлетворяло неравенству. Приводимый дальше алгоритм позволяет сгенерировать синтетическую базу , на которой пользователь сможет обучать те же линейные полупространства — причём с соблюдением дифференциальной приватности.
В этом разделе показано: можно опубликовать набор данных, полезный для концептов из класса с полиномиальной VC-измеримостью, сохранив при этом -дифференциальную приватность, если исходный набор достаточно велик полиномиально относительно VC-измеримости. Формально:
Теорема: Для любого класса функций и данных , если
- ,
можно построить -полезный набор , сохраняющий -дифференциальную приватность. При этом эффективность алгоритма не гарантируется.
Замечательно, что размер синтетического набора зависит не от исходных данных, а лишь от VC-измеримости концепта и параметра : .
Воспользуемся теоремой о единообразной сходимости из комбинаторики и её следствием для нашей задачи.
Лемма: Для любого набора найдётся размера , такое что .
Доказательство:
Из теоремы единообразной сходимости:
где вероятность берётся по распределению датасета. Если правая часть будет меньше единицы, гарантировано существование нужного множества . Для этого требуется , где — положительная константа. Поскольку выходной размер , достаточно требовать .
Введём экспоненциальный механизм:
Определение: для функции и входных данных , экспоненциальный механизм выбирает набор с вероятностью, пропорциональной .
Из свойств механизма видно, что, он реализует -дифференциальную приватность.
Положим .
Чтобы механизм был -полезным, требуется, чтобы возвращался такой , что с вероятностью . Всего выходных наборов ; вероятность, что , не более . Следовательно, по неравенству объединения, вероятность возвратить такой не превышает . Поскольку всегда существует с , оно выбирается с вероятностью не менее .
Обозначим
- — событие, что механизм возвращает такой , что ;
- — событие, что возвращается .
Тогда
- .
Требуя, чтобы это было не меньше , получаем достаточное условие на размер исходных данных:
Таким образом, теорема доказана.
Применение в других областях
В приведённом выше примере экспоненциального механизма генерируется синтетический набор данных, позволяющий отвечать на запросы с хорошей точностью, сохраняя приватность. Альтернативные механизмы, такие как байесовское сэмплирование по апостериорному распределению[6], которые возвращают параметры, а не датасеты, могут сводиться к экспоненциальному механизму[7].
Помимо приватности, экспоненциальный механизм исследуется в теории аукционов и алгоритмах классификации[8]. В частности, в теориях аукционов он позволяет реализовать условия честности.