导语：在过来的几年中，咱们见证了大数据及人工智能技术的飞速发展，许多机构却仍旧苦于数据数量少、品质低等难题而无奈将前沿实践商业化落地。助力像石油般贵重的数据冲破隐衷爱护的条框限度并实现其价值的流通，对相干产业的倒退起着至关重要的作用。在上一篇文章中，咱们简要介绍了腾讯“神盾-联邦计算”平台的诞生背景和数据安全与隐衷爱护技术亮点。这次，咱们着重选取本产品首推的“非对称联邦学习” (Asymmetrical Federated Learning, AFL) 范式进行介绍。该范式旨在全面爱护数据集的样本ID、特色和标签的隐衷平安，彻底解除在不均衡的 (unbalanced) 联邦计算零碎中，中小企业对敏感用户ID泄露问题的担心。

文章作者：刘洋，腾讯神盾-联邦计算平台项目组

一、钻研背景

在风控、营销、举荐、AI等支流业务中，腾讯“神盾-联邦计算”平台以底层强有力的隐衷爱护技术为撑持，以上层先进高效的信息分享、数据挖掘、人工智能算法为进口，向包含企业、学校、医院和政府等在内的各类独立机构提供联邦计算零碎的无门槛搭建、计算、建模和推理等服务。腾讯“神盾-联邦计算”平台旨在撮合有数据需要的业务方和有价值变现需要的数据方之间开展单干。在单干过程中，神盾秉承始终保持各机构原始数据平安的准则，令各机构偏心地享受联邦计算成绩。

为了达成以上指标，腾讯“神盾-联邦计算”平台在数年来的孵化和成长中，逐步吸纳了数据安全与隐衷爱护畛域的两大核心技术：

以不经意传输 (Oblivious Transfer, OT)、机密分享 (Secret Sharing, SS) 和同态加密 (Homomorphic Encryption, HE) 为代表的平安多方计算 (Secure Multiparty Computation, MPC) 技术。该类技术通常以在分布式隐衷数据之上的个别函数求值为指标，在半个多个世纪倒退中慢慢造成了严格的精度、效率和安全性度量。
以联邦学习 (Federated Learning, FL) 为代表的面向隐衷爱护的分布式机器学习 (Privacy-Preserving Distributed Machine Learning, PPDML) 技术。该类技术通常以将现有的隐衷爱护技术奇妙地集成到经典的数据挖掘和统计学习算法中为指标。因为许多模型训练所基于的最优化及贪婪算法计算量宏大，所以该类技术对高计算效率和低通信复杂度有着狂热的谋求。

从上图能够看出，在腾讯“神盾-联邦计算”平台的底层技术栈中，PPDML与MPC并不仅仅是单纯的并列关系。正如以上第 (2) 条中提到，PPDML通常联合了MPC的诸多经典平安技术，对学业界常见的机器学习算法做隐衷爱护模式的革新。实际上，在许多理论业务场景中，尤其是现如今的金融风控和精准营销场景等中，相干大型企业曾经无比善于利用成型的机器学习零碎，对本人把握的用户的高维特色和历史行为标签做数据挖掘，最初基于开掘失去的机器学习模型对新用户做业务预测，达到升高信用风险、打压黑灰产、扩充市场份额和缩小获客老本等目标。因而，绝对于MPC自身，与现行机器学习零碎更贴近的PPDML技术领有更强的理论业务场景诉求，并且，这种诉求更多来自于不足大规模、高质量数据集的中小企业。

以腾讯“神盾-联邦计算”平台频繁应用的PPDML下的FL技术为例。在纵向FL的规范范式 [1] 中，参与方顺次执行以下步骤：

加密实体对齐 (encrypted entity alignment)：参与方采纳MPC技术获取所有参与方把握的样本ID交加，而不裸露ID非交加内容。这里通常采纳为MPC中的隐衷汇合求交 (Private Set Intersection, PSI) 技术。
加密模型训练 (encrypted model training)：每一个参与方听从预设的联邦协定，基于本人把握的原始数据计算取得两头变量，将加密或混同后的两头变量与其余参与方交互，以期单干训练取得高质量的机器学习模型。在联邦协定的执行过程中，各参与方的隐衷数据集的特色和标签隐衷被重点关注和爱护。

以两方FL为例，上述的FL规范范式能够被下图示意：

能够看出，两方的ID量级相当，被默认成一种强强联手状态的均衡的 (balanced) 多方常识散布。确实，FL规范范式通过第 (1) 步保障了样本ID非交加内容的隐衷平安，通过第 (2) 步保障了两数据集的特色与标签隐衷平安。然而，它却容许样本ID交加内容成为必向各方公开的信息。以下数值试验量化了FL规范范式的这种缺点造成的样本ID隐衷泄露水平。

假如样本ID选集为全国人手机号，共14亿个，而两参与方Alice和Bob各把握8亿个手机号，别离是bc + cd和bc + ab。进一步地，咱们假如单方有6亿手机号的交加bc。另有4亿手机号de不被单方所把握。这种ID散布能够由下图示意：

那么，在接入FL规范范式前，若Alice在手机号全集中平均随机的抽取一个ID，那么此ID在Bob所把握的ID中的概率为

在接入FL规范范式后，同样的做法将使Alice基于察看给出三种不同推断：

综上，用条件概率形式计算失去此ID被Bob把握的概率为

因而，接入FL规范范式使得Alice对Bob样本ID的常识增益为

这25%也可视为Bob对Alice的隐衷泄露量。该隐衷泄露量并不高，貌似可承受。然而，在联邦计算的理论业务场景中，更多的是不均衡的多方常识散布，即强弱联邦零碎。这时，该危险变得更为严重。通常，其中的强势方为社交媒体公司、大型国企和大型银行等大型机构，把握较大的ID空间；而弱势方则为小型的游戏公司、借贷公司、保险公司和互联网平台，它们的ID空间较小，对于这些弱势方来说，把握的样本ID可能是高额守约用户、高理赔客户、黑灰产账户等，每一条样本ID的获取都意味着昂扬老本的付出，这些ID自身该当被视为最高等级的隐衷信息之一。

在不均衡的联邦计算零碎中，Bob的隐衷泄露量会怎么变动？咱们从新回到方才的数值试验，令Bob为弱势的中小企业，其把握有60万ID，其中与Alice的交加为50万。这种常识散布能够由下图示意：

在这种状况下，接入联邦前，若Alice在手机号全集中平均随机的抽取一个ID，那么此ID在Bob所把握的ID中的概率仅为

接入联邦后，Alice同样的猜想行为将造成以下条件概率分布

依据条件概率计算，此ID被Bob所把握的概率变成

此时，Bob对Alice的隐衷泄露量高达

综上，当多方常识散布由均衡切换至不均衡时，Bob对Alice的隐衷泄露量由可承受的25.0%晋升至惊人的130000%。可见，在不均衡的联邦计算零碎中，弱势方的隐衷泄露量大大高于平衡态，减少了中小企业对接入联邦计算平台的平安顾虑。

为了解决实用联邦计算零碎中的隐衷爱护缺点，神盾率先提出非对称联邦学习范式，全方位爱护弱势中小企业的隐衷数据。

二、非对称联邦学习范式

与规范联邦学习范式相比，腾讯“神盾-联邦计算”平台独创的非对称联邦学习范式通过对原有的两个环节——加密实体对齐和加密模型训练——做针对性的非对称协定革新[2]，实现对弱势方隐衷数据的全面爱护。接下来，咱们顺次介绍两环节的革新内容。

1. 非对称加密实体对齐

在数据输出到非对称联邦计算零碎后，首先要做的就是非对称版本的加密实体对齐环节。别离从两个参与方的角度去看：

在弱势方侧，因为准确交加的获知并不会对强势方隐衷ID形成较大威逼，所以非对称范式容许准确交加的内容间接被弱势方拿到。咱们称准确交加的元素为Genuine样本。
在强势方侧，依据数值试验，准确交加的获知将对弱势方造成重大的ID隐衷泄露。作为折衷，非对称范式仅容许强势方拿到准确交加+混同汇合的内容。咱们称混同汇合的元素为Dummy样本。

这种非对称加密实体对齐的输入散布能够从下图看出。

这种输入散布具备以下两个特点：

强势方无奈从非对称加密实体对齐的输入汇合中分辨哪些为Genuine样本，哪些为Dummy样本；
准确交加与混同汇合的大小比例，即Genuine与Dummy样本的数量比例，间接影响非对称范式对弱势方样本ID的隐衷爱护力度：当比例十分小时，准确交加远远小于混同汇合，强势方难以从输入分辨哪些为Genuine样本，弱势方的样本ID安全性极高；当比例升高时，这种分辨行为变得容易，弱势方样本ID的安全性继续升高；当比例为无穷时，非对称加密实体对齐进化为规范版本，不再具备爱护弱势方的样本ID隐衷的能力。

为了量化 (2) 中提到的准确与混同比例，咱们引入非对称指数λ，令其落在[0, 1]，满足

(强势方ID数量 / 准确交加ID数量)^λ = (混同汇合ID数量 + 准确交加ID数量) / 准确交加ID数量

可见，当λ=0时，混同汇合为空，此时非对称对齐进化为规范对齐，安全性最低；λ越大，混同汇合越大，安全性越高；当λ=1时，混同汇合达到最大，安全性最高。

以下表格反映了数值试验中，λ=1的非对称联邦对Bob隐衷泄露量的升高成果。

从以上表格能够看出，在不均衡的联邦计算零碎中，神盾独创的非对称联邦学习范式将弱势方的隐衷泄露量从130000%大幅升高至均衡联邦的程度25.0%，安全性大幅晋升，彻底解除中小企业对接入联邦计算平台的平安顾虑。

值得一提的是，非对称加密实体对齐的具体实现能够由多种经典隐衷爱护技术实现，如1978年Pohlig Hellman提出的替换加密办法[3]，或神盾独创的替换仿射明码。本篇文章中，咱们不赘述相干实现原理。

2. 非对称加密模型训练

从已介绍的非对称加密实体对齐环节能够看出，非对称革新使原有对齐形式失去了局部对齐性能，即强势方没有取得准确交加。这使得在后续的联邦加密模型训练环节中，每轮信息交互之后，强势方无奈间接将逐样本的两头变量与对应样本准确匹配。为了可能持续爱护准确交加信息不被强势方获知，又能精确执行后续加密模型训练环节，失去正确后果，腾讯“神盾-联邦计算”平台首次提出Genuine-with-Dummy办法，非对称化已有的加密模型训练环节。该办法的思维简述如下，在逐样本的两头变量的计算和交互时，满足：

在弱势方侧，对准确交集中的Genuine样本，听从规范联邦协定执行计算，失去两头变量v；对混同汇合中的Dummy样本，依据计算机制捏造对应的不变元 (identity) e，例如加法群的0，乘法群的1和函数复合群的f(x)=x等。将v和e混合在一起发送给强势方。
在强势方侧，听从规范联邦协定执行计算。

以下图为例。

在联邦协定的某个子程序subroutine()执行过程中，弱势方对每个Genuine样本计算规范两头变量v，并对每个Dummy样本捏造不变元e。将v和e混合在一起加密发送给强势方。在这个过程中，咱们强调

因为不变元e具备不扭转相应算子运算后果的性质，Genuine-with-Dummy办法保障了subroutine()的计算结果在有无e输出的状况下后果雷同，进一步保障了非对称加密模型训练产生的模型成果与规范版本雷同。
在现有的联邦协定中，e和v通常在发送前应用包含语义平安的同态明码零碎在内的成熟隐衷爱护工具加密，如Paillier明码[4]和神盾独创的随机化迭代型仿射明码 (Randomized Iterative Affine Cipher)。在这种状况下，即使是对大量Dummy样本捏造雷同的不变元e，加密失去的密文也各异，强势方无奈从密文语义判断哪些样本为Dummy，继续保障Genuine样本的隐衷平安。

以加密逻辑回归模型训练为例，咱们晓得，与其余狭义线性模型雷同，逻辑回归似然函数的梯度是标量向量乘积之和的模式，即

一种业界通用的联邦逻辑回归算法外围在于由标签持有方Bob计算、加密和发送逐样本的两头变量f给Alice，由Alice在密文空间计算部分梯度。为了实现非对称加密模型训练，在Genuine-with-Dummy办法的领导下，Bob对每个Dummy样本捏造f=e，其中e是加法不变元零。如下算法

这样，在无感知哪些样本为Dummy的前提下，Alice以非对称模式计算失去与规范范式雷同的部分梯度后果。

以下数值试验以MNIST数据集之上的逻辑回归为例，其中用到的底层联邦协定基于腾讯大数据团队研发的PowerFL联邦学习框架。所有试验均在500分钟内实现。这些试验反映了非对称联邦学习范式绝对于规范范式具备放弃计算结果精度的长处。

三、结语

这篇文章简介了腾讯“神盾-联邦计算”平台团队用新鲜的角度定位到了业界通用的规范联邦学习范式中弱势方数据集隐衷泄露问题，针对该问题，神盾独创非对称联邦学习范式，可能在爱护弱势方数据样本ID隐衷的前提下实现常见的联邦计算工作，并通过翻新的Genuine-with-Dummy办法，保障非对称范式的计算成绩迫近规范范式。

参考文献

Yang, Qiang, et al. “Federated machine learning: Concept and applications.” ACM Transactions on Intelligent Systems and Technology (TIST) 10.2 (2019): 1-19.
Liu, Yang, Xiong Zhang, and Libin Wang. “Asymmetrically Vertical Federated Learning.” arXiv preprint arXiv:2004.07427(2020).
Pohlig, Stephen, and Martin Hellman. “An improved algorithm for computing logarithms over GF (p) and its cryptographic significance (Corresp.).” IEEE Transactions on information Theory 24.1 (1978): 106-110.
Paillier, Pascal. “Public-key cryptosystems based on composite degree residuosity classes.” International conference on the theory and applications of cryptographic techniques. Springer, Berlin, Heidelberg, 1999.

关于大数据:腾讯云大数据神盾首创非对称联邦学习深度保障数据隐私

一、钻研背景

二、非对称联邦学习范式

1. 非对称加密实体对齐

2. 非对称加密模型训练

三、结语

参考文献

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于大数据:腾讯云大数据神盾首创非对称联邦学习深度保障数据隐私

一、钻研背景

二、非对称联邦学习范式

1. 非对称加密实体对齐

2. 非对称加密模型训练

三、结语

参考文献

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复