差分隐衷(Differential Privacy,DP)是密码学中的一种伎俩,能够进步从统计数据库进行数据查问的准确性,同时帮忙最大限度缩小辨认其具体记录的机会。DP个别分为:CDP(Centralized Differential Privacy)、LDP(Local Differential Privacy)。

一、CDP

1.1 根本定义

爱护成果:查问者无奈判断特定样本是否在一个数据集当中。

1.2 利用举例

1.3 全局敏感度

1.4 数据裁剪

COUNT函数的GS始终为1,然而SUM函数的GS就不好说了,因为这要看SUM作用于哪个属性列,如:年龄和支出利用SUM就有很大差别。如1.2所述,咱们利用Laplace扰动机制时须要f(x)(此处为SUM)的有界全局敏感度,但SUM显然不容易做到,因而须要看待解决的列进行裁剪解决,以失去f(x)的有界全局敏感度。有两点须要特地留神:

• 在裁剪造成的信息损失与满足差分隐衷所须要的噪声间进行trade off,个别裁剪后要尽可能保留100%的信息。

• 不能通过查看数据集来确定裁剪边界,这可能会泄露信息,同时也不满足差分隐衷的定义。

那咱们应该如何对属性列进行裁剪动作,个别有如下两个做法:

• 依据数据集先天满足的一些性质来确定裁剪办界。如人的年龄个别在0~125岁之间。

• 采纳差分隐衷问询预计抉择的边界是否正当。先通过数据变换把属性列映射为非负值,而后将裁剪下界置0,逐步减少上界,直至问询输入不变。

1.5 向量值函数及其敏感度

1.6 Laplace机制

1.7 Gaussian机制

1.8 Laplace vs Gaussian

向量值Laplace机制须要应用L1敏感度,而向量值Gaussian机制L1和L2敏感度都能够应用。在L2敏感度远低于L1敏感度的场景下,Gaussian机制增加的噪声要小得多。向量值Laplace和Gaussian的公布规定为:

1.9 指数机制

前述Laplace和Gaussian机制的回复都是数值型的,只须要间接在回复的数值后果上增加噪声即可。如果咱们想从一个备选回复汇合中选出最佳后果,同时又保障回复过程满足差分隐衷,那应该怎么办呢?一种可行的办法是应用指数机制。首先,定义一个备选回复汇合;而后,再定义评分函数,评分函数输入备选汇合中每个回复的分数;分数最高的回复就是最大回复。指数机制通过返回分数近似最大的回复来实现差分隐衷爱护。

报告噪声最大值

1.10 组合性与后处理性

二、LDP

2.1 LDP根本定义

2.2 LDP经典算法

2.3 LDP举例-随机应答

有n个用户,假如X病患者的实在比例为,咱们心愿对这个比例进行统计。于是咱们发动一个敏感问题:“你是否为X病患者?”,每个用户的答案是yes or no。出于隐衷性思考,用户可能不会给出正确答案[5]。

咱们能够对每位用户的答复加一些数据扰动。比方:用户正确答复的概率为p,谬误答复概率为(1-p)。这样就不会精确晓得每位用户的实在答案,相当于爱护了用户隐衷。按此规定咱们统计答复yes与no的用户占比。

DP在机器学习畛域的利用、基于Gaussian机制实现LDP的原理请听下回分享。

参考资料

1.Balle B, Wang Y X. Improving the gaussian mechanism for differential privacy: Analytical calibration and optimal denoising[C]//International Conference on Machine Learning. PMLR, 2018: 394-403.

2. https://programming-dp.com/

3.Cynthia Dwork, Aaron Roth, and others. The algorithmic foundations of differential privacy. Foundations and Trends® in Theoretical Computer Science, 9(3–4):211–407, 2014.

4.Xiong X, Liu S, Li D, et al. A comprehensive survey on local differential privacy[J]. Security and Communication Networks, 2020, 2020: 1-29.

5.LDP随机响应技术举例: https://zhuanlan.zhihu.com/p/472032115

作者:京东科技 李杰

内容起源:京东云开发者社区