乐趣区

关于大数据:腾讯云大数据神盾首创非对称联邦学习深度保障数据隐私

导语:在过来的几年中,咱们见证了大数据及人工智能技术的飞速发展,许多机构却仍旧苦于数据数量少、品质低等难题而无奈将前沿实践商业化落地。助力像石油般贵重的数据冲破隐衷爱护的条框限度并实现其价值的流通,对相干产业的倒退起着至关重要的作用。在上一篇文章中,咱们简要介绍了腾讯“神盾 - 联邦计算”平台的诞生背景和数据安全与隐衷爱护技术亮点。这次,咱们着重选取本产品首推的“非对称联邦学习”(Asymmetrical Federated Learning, AFL) 范式进行介绍。该范式旨在全面爱护数据集的样本 ID、特色和标签的隐衷平安,彻底解除在不均衡的 (unbalanced) 联邦计算零碎中,中小企业对敏感用户 ID 泄露问题的担心。

文章作者:刘洋,腾讯神盾 - 联邦计算平台项目组

一、钻研背景

在风控、营销、举荐、AI 等支流业务中,腾讯“神盾 - 联邦计算”平台以底层强有力的隐衷爱护技术为撑持,以上层先进高效的信息分享、数据挖掘、人工智能算法为进口,向包含企业、学校、医院和政府等在内的各类独立机构提供联邦计算零碎的无门槛搭建、计算、建模和推理等服务。腾讯“神盾 - 联邦计算”平台旨在撮合有数据需要的业务方和有价值变现需要的数据方之间开展单干。在单干过程中,神盾秉承始终保持各机构原始数据平安的准则,令各机构偏心地享受联邦计算成绩。

为了达成以上指标,腾讯“神盾 - 联邦计算”平台在数年来的孵化和成长中,逐步吸纳了数据安全与隐衷爱护畛域的两大核心技术:

  1. 以不经意传输 (Oblivious Transfer, OT)、机密分享 (Secret Sharing, SS) 和同态加密 (Homomorphic Encryption, HE) 为代表的平安多方计算 (Secure Multiparty Computation, MPC) 技术。该类技术通常以在分布式隐衷数据之上的个别函数求值为指标,在半个多个世纪倒退中慢慢造成了严格的精度、效率和安全性度量。
  2. 以联邦学习 (Federated Learning, FL) 为代表的面向隐衷爱护的分布式机器学习 (Privacy-Preserving Distributed Machine Learning, PPDML) 技术。该类技术通常以将现有的隐衷爱护技术奇妙地集成到经典的数据挖掘和统计学习算法中为指标。因为许多模型训练所基于的最优化及贪婪算法计算量宏大,所以该类技术对高计算效率和低通信复杂度有着狂热的谋求。

从上图能够看出,在腾讯“神盾 - 联邦计算”平台的底层技术栈中,PPDML 与 MPC 并不仅仅是单纯的并列关系。正如以上第 (2) 条中提到,PPDML 通常联合了 MPC 的诸多经典平安技术,对学业界常见的机器学习算法做隐衷爱护模式的革新。实际上,在许多理论业务场景中,尤其是现如今的金融风控和精准营销场景等中,相干大型企业曾经无比善于利用成型的机器学习零碎,对本人把握的用户的高维特色和历史行为标签做数据挖掘,最初基于开掘失去的机器学习模型对新用户做业务预测,达到升高信用风险、打压黑灰产、扩充市场份额和缩小获客老本等目标。因而,绝对于 MPC 自身,与现行机器学习零碎更贴近的 PPDML 技术领有更强的理论业务场景诉求,并且,这种诉求更多来自于不足大规模、高质量数据集的中小企业。

以腾讯“神盾 - 联邦计算”平台频繁应用的 PPDML 下的 FL 技术为例。在纵向 FL 的规范范式 [1] 中,参与方顺次执行以下步骤:

  1. 加密实体对齐 (encrypted entity alignment):参与方采纳 MPC 技术获取所有参与方把握的样本 ID 交加,而不裸露 ID 非交加内容。这里通常采纳为 MPC 中的隐衷汇合求交 (Private Set Intersection, PSI) 技术。
  2. 加密模型训练 (encrypted model training):每一个参与方听从预设的联邦协定,基于本人把握的原始数据计算取得两头变量,将加密或混同后的两头变量与其余参与方交互,以期单干训练取得高质量的机器学习模型。在联邦协定的执行过程中,各参与方的隐衷数据集的特色和标签隐衷被重点关注和爱护。

以两方 FL 为例,上述的 FL 规范范式能够被下图示意:

能够看出,两方的 ID 量级相当,被默认成一种强强联手状态的均衡的 (balanced) 多方常识散布。确实,FL 规范范式通过第 (1) 步保障了样本 ID 非交加内容的隐衷平安,通过第 (2) 步保障了两数据集的特色与标签隐衷平安。然而,它却容许样本 ID 交加内容成为必向各方公开的信息。以下数值试验量化了 FL 规范范式的这种缺点造成的样本 ID 隐衷泄露水平。

假如样本 ID 选集为全国人手机号,共 14 亿个,而两参与方 Alice 和 Bob 各把握 8 亿个手机号,别离是 bc + cd 和 bc + ab。进一步地,咱们假如单方有 6 亿手机号的交加 bc。另有 4 亿手机号 de 不被单方所把握。这种 ID 散布能够由下图示意:

那么,在接入 FL 规范范式前,若 Alice 在手机号全集中平均随机的抽取一个 ID,那么此 ID 在 Bob 所把握的 ID 中的概率为

在接入 FL 规范范式后,同样的做法将使 Alice 基于察看给出三种不同推断:

综上,用条件概率形式计算失去此 ID 被 Bob 把握的概率为

因而,接入 FL 规范范式使得 Alice 对 Bob 样本 ID 的常识增益为

这 25% 也可视为 Bob 对 Alice 的隐衷泄露量。该隐衷泄露量并不高,貌似可承受。然而,在联邦计算的理论业务场景中,更多的是不均衡的多方常识散布,即强弱联邦零碎。这时,该危险变得更为严重。通常,其中的强势方为社交媒体公司、大型国企和大型银行等大型机构,把握较大的 ID 空间;而弱势方则为小型的游戏公司、借贷公司、保险公司和互联网平台,它们的 ID 空间较小,对于这些弱势方来说,把握的样本 ID 可能是高额守约用户、高理赔客户、黑灰产账户等,每一条样本 ID 的获取都意味着昂扬老本的付出,这些 ID 自身该当被视为最高等级的隐衷信息之一。

在不均衡的联邦计算零碎中,Bob 的隐衷泄露量会怎么变动?咱们从新回到方才的数值试验,令 Bob 为弱势的中小企业,其把握有 60 万 ID,其中与 Alice 的交加为 50 万。这种常识散布能够由下图示意:

在这种状况下,接入联邦前,若 Alice 在手机号全集中平均随机的抽取一个 ID,那么此 ID 在 Bob 所把握的 ID 中的概率仅为

接入联邦后,Alice 同样的猜想行为将造成以下条件概率分布

依据条件概率计算,此 ID 被 Bob 所把握的概率变成

此时,Bob 对 Alice 的隐衷泄露量高达

综上,当多方常识散布由均衡切换至不均衡时,Bob 对 Alice 的隐衷泄露量由可承受的 25.0% 晋升至惊人的 130000%。可见,在不均衡的联邦计算零碎中,弱势方的隐衷泄露量大大高于平衡态,减少了中小企业对接入联邦计算平台的平安顾虑。

为了解决实用联邦计算零碎中的隐衷爱护缺点,神盾率先提出非对称联邦学习范式,全方位爱护弱势中小企业的隐衷数据。

二、非对称联邦学习范式

与规范联邦学习范式相比,腾讯“神盾 - 联邦计算”平台独创的非对称联邦学习范式通过对原有的两个环节——加密实体对齐和加密模型训练——做针对性的非对称协定革新[2],实现对弱势方隐衷数据的全面爱护。接下来,咱们顺次介绍两环节的革新内容。

1. 非对称加密实体对齐

在数据输出到非对称联邦计算零碎后,首先要做的就是非对称版本的加密实体对齐环节。别离从两个参与方的角度去看:

  1. 在弱势方侧,因为准确交加的获知并不会对强势方隐衷 ID 形成较大威逼,所以非对称范式容许准确交加的内容间接被弱势方拿到。咱们称准确交加的元素为 Genuine 样本。
  2. 在强势方侧,依据数值试验,准确交加的获知将对弱势方造成重大的 ID 隐衷泄露。作为折衷,非对称范式仅容许强势方拿到准确交加 + 混同汇合的内容。咱们称混同汇合的元素为 Dummy 样本。

这种非对称加密实体对齐的输入散布能够从下图看出。

这种输入散布具备以下两个特点:

  1. 强势方无奈从非对称加密实体对齐的输入汇合中分辨哪些为 Genuine 样本,哪些为 Dummy 样本;
  2. 准确交加与混同汇合的大小比例,即 Genuine 与 Dummy 样本的数量比例,间接影响非对称范式对弱势方样本 ID 的隐衷爱护力度:当比例十分小时,准确交加远远小于混同汇合,强势方难以从输入分辨哪些为 Genuine 样本,弱势方的样本 ID 安全性极高;当比例升高时,这种分辨行为变得容易,弱势方样本 ID 的安全性继续升高;当比例为无穷时,非对称加密实体对齐进化为规范版本,不再具备爱护弱势方的样本 ID 隐衷的能力。

为了量化 (2) 中提到的准确与混同比例,咱们引入非对称指数 λ,令其落在[0, 1],满足

(强势方 ID 数量 / 准确交加 ID 数量)^λ = (混同汇合 ID 数量 + 准确交加 ID 数量) / 准确交加 ID 数量

可见,当 λ = 0 时,混同汇合为空,此时非对称对齐进化为规范对齐,安全性最低;λ 越大,混同汇合越大,安全性越高;当 λ = 1 时,混同汇合达到最大,安全性最高。

以下表格反映了数值试验中,λ= 1 的非对称联邦对 Bob 隐衷泄露量的升高成果。

从以上表格能够看出,在不均衡的联邦计算零碎中,神盾独创的非对称联邦学习范式将弱势方的隐衷泄露量从 130000% 大幅升高至均衡联邦的程度 25.0%,安全性大幅晋升,彻底解除中小企业对接入联邦计算平台的平安顾虑。

值得一提的是,非对称加密实体对齐的具体实现能够由多种经典隐衷爱护技术实现,如 1978 年 Pohlig Hellman 提出的替换加密办法[3],或神盾独创的替换仿射明码。本篇文章中,咱们不赘述相干实现原理。

2. 非对称加密模型训练

从已介绍的非对称加密实体对齐环节能够看出,非对称革新使原有对齐形式失去了局部对齐性能,即强势方没有取得准确交加。这使得在后续的联邦加密模型训练环节中,每轮信息交互之后,强势方无奈间接将逐样本的两头变量与对应样本准确匹配。为了可能持续爱护准确交加信息不被强势方获知,又能精确执行后续加密模型训练环节,失去正确后果,腾讯“神盾 - 联邦计算”平台首次提出 Genuine-with-Dummy 办法,非对称化已有的加密模型训练环节。该办法的思维简述如下,在逐样本的两头变量的计算和交互时,满足:

  1. 在弱势方侧,对准确交集中的 Genuine 样本,听从规范联邦协定执行计算,失去两头变量 v;对混同汇合中的 Dummy 样本,依据计算机制捏造对应的不变元 (identity) e,例如加法群的 0,乘法群的 1 和函数复合群的 f(x)= x 等。将 v 和 e 混合在一起发送给强势方。
  2. 在强势方侧,听从规范联邦协定执行计算。

以下图为例。

在联邦协定的某个子程序 subroutine()执行过程中,弱势方对每个 Genuine 样本计算规范两头变量 v,并对每个 Dummy 样本捏造不变元 e。将 v 和 e 混合在一起加密发送给强势方。在这个过程中,咱们强调

  1. 因为不变元 e 具备不扭转相应算子运算后果的性质,Genuine-with-Dummy 办法保障了 subroutine()的计算结果在有无 e 输出的状况下后果雷同,进一步保障了非对称加密模型训练产生的模型成果与规范版本雷同。
  2. 在现有的联邦协定中,e 和 v 通常在发送前应用包含语义平安的同态明码零碎在内的成熟隐衷爱护工具加密,如 Paillier 明码 [4] 和神盾独创的随机化迭代型仿射明码 (Randomized Iterative Affine Cipher)。在这种状况下,即使是对大量 Dummy 样本捏造雷同的不变元 e,加密失去的密文也各异,强势方无奈从密文语义判断哪些样本为 Dummy,继续保障 Genuine 样本的隐衷平安。

以加密逻辑回归模型训练为例,咱们晓得,与其余狭义线性模型雷同,逻辑回归似然函数的梯度是标量向量乘积之和的模式,即

一种业界通用的联邦逻辑回归算法外围在于由标签持有方 Bob 计算、加密和发送逐样本的两头变量 f 给 Alice,由 Alice 在密文空间计算部分梯度。为了实现非对称加密模型训练,在 Genuine-with-Dummy 办法的领导下,Bob 对每个 Dummy 样本捏造 f =e,其中 e 是加法不变元零。如下算法

这样,在无感知哪些样本为 Dummy 的前提下,Alice 以非对称模式计算失去与规范范式雷同的部分梯度后果。

以下数值试验以 MNIST 数据集之上的逻辑回归为例,其中用到的底层联邦协定基于腾讯大数据团队研发的 PowerFL 联邦学习框架。所有试验均在 500 分钟内实现。这些试验反映了非对称联邦学习范式绝对于规范范式具备放弃计算结果精度的长处。

三、结语

这篇文章简介了腾讯“神盾 - 联邦计算”平台团队用新鲜的角度定位到了业界通用的规范联邦学习范式中弱势方数据集隐衷泄露问题,针对该问题,神盾独创非对称联邦学习范式,可能在爱护弱势方数据样本 ID 隐衷的前提下实现常见的联邦计算工作,并通过翻新的 Genuine-with-Dummy 办法,保障非对称范式的计算成绩迫近规范范式。

参考文献

  1. Yang, Qiang, et al. “Federated machine learning: Concept and applications.” ACM Transactions on Intelligent Systems and Technology (TIST) 10.2 (2019): 1-19.
  2. Liu, Yang, Xiong Zhang, and Libin Wang. “Asymmetrically Vertical Federated Learning.” arXiv preprint arXiv:2004.07427(2020).
  3. Pohlig, Stephen, and Martin Hellman. “An improved algorithm for computing logarithms over GF (p) and its cryptographic significance (Corresp.).” IEEE Transactions on information Theory 24.1 (1978): 106-110.
  4. Paillier, Pascal. “Public-key cryptosystems based on composite degree residuosity classes.” International conference on the theory and applications of cryptographic techniques. Springer, Berlin, Heidelberg, 1999.
退出移动版