乐趣区

关于区块链:联邦学习这件小事二

前 言
上一篇咱们讲述了人工智能,机器学习与联邦学习的关系。

这篇咱们将持续摸索联邦学习办法的分类。联邦学习办法被分为横向联邦学习、纵向联邦学习和迁徙联邦学习三类,实用于解决不同的理论问题。

横向联邦学习

在两个数据集的用户特色重叠较多而用户重叠较少的状况下,把数据集依照用户维度切分,并取出单方用户特色雷同而用户不完全相同的那局部数据进行训练。这种办法叫做横向联邦学习(如下图)。


▲ 利用场景

横向联邦学习的实质是样本的联结,实用于参与者间业态雷同但触达客户不同,即特色重叠多,用户重叠少时的场景,比方不同地区的银行间,他们的业务类似(特色类似),但用户不同(样本不同)。

比方,有两家不同地区银行 — 上海与杭州两地的两家银行,它们的用户群体别离来自上海与杭州的寓居人口,用户的交加绝对较小。因为银行间的业务类似,记录的用户特色大概率是雷同的。因而,横向联邦学习能够被思考用来构建联结模型。

于 2017 年,Google 提出了一个针对安卓手机模型更新的数据联结建模计划:在单个用户应用安卓手机时,一直在本地更新模型参数并将参数上传到安卓云上,从而使特色维度雷同的各数据领有方建设联结模型的一种联邦学习计划。

▲ 学习过程

Step1. 参与方各自从协调方上下载最新模型;

Step2. 每个参与方利用本地数据训练模型,加密梯度上传给协调方,协调方聚合各用户的梯度以更新模型参数;

Step3. 协调方返回更新后的模型给各参与方;

Step4. 各参与方更新各自模型。

纵向联邦学习

在两个数据集的用户重叠较多而用户特色重叠较少的状况下,把数据集依照特色维度切分,并取出单方用户雷同而用户特色不完全相同的那局部数据进行训练。这种办法叫做纵向联邦学习(如下图)。


▲ 实用场景

纵向联邦学习的实质是特色的联结,实用于用户重叠多,特色重叠少的场景,比方同一地区的商超和银行,他们触达的用户都为该地区的居民(样本雷同),但业务不同(特色不同)。

比方,有两个不同机构,一家是某地的银行,另一家是同一个中央的电商。它们的用户群体很有可能蕴含该地的大部分居民,用户的交加可能较大。因为银行记录的都是用户的收支行为与信用评级,而电商则保有用户的浏览与购买历史,因而它们的用户特色交加较小。纵向联邦学习就是将这些不同特色在加密的状态下加以聚合,以加强模型能力的联邦学习。

▲ 学习过程

介绍一种简略通用的纵向联邦学习的建模学习过程,加密形式也以半同态加密的 Pallier Encryption 为主。

训练前:

先采纳加密文本对齐(PSI)的技术手段,在零碎内筛选出不同企业之间的独特用户。

训练时:

Step1. 协调方 C 向企业 A 与 B 发送公钥,用来加密所需传输的数据;

Step2. A 和 B 别离计算和本人相干特色的两头后果,并加密完后进行交互,用来求解各自的梯度后果和损失后果;

Step3. A 和 B 别离计算各自加密后的梯度并增加掩码后发送给 C,同时 B 计算加密后的损失先发送给 C;

Step4. C 解密梯度和损失后回传给 A 和 B,A、B 去除掩码并更新模型。

迁徙联邦学习

在两个数据集的用户与用户特色重叠都较少的状况下,不对数据进行切分,而能够利用迁徙学习来克服数据或标签有余的状况。这种办法叫做联邦迁徙学习(如下图)。

▲ 实用场景

当参与者间特色和样本重叠都很少时能够思考应用联邦迁徙学习,如不同地区的银行和商超间的联结。次要实用于以深度神经网络为基模型的场景。

迁徙学习的外围是,找到源畛域和指标畛域之间的相似性。举一个杨强传授常常举的例子来阐明:咱们都晓得在中国大陆开车时,驾驶员坐在右边,靠马路右侧行驶。这是根本的规定。然而,如果在英国、香港等地区开车,驾驶员是坐在左边,须要靠马路左侧行驶。那么,如果咱们从中国大陆到了香港,应该如何疾速地适应他们的开车形式呢?窍门就是找到这里的不变量:不管在哪个地区,驾驶员都是紧靠马路两头。这就是咱们这个开车问题中的不变量。找到相似性 (不变量),是进行迁徙学习的外围。

比方有两个不同机构,一家是位于中国的银行,另一家是位于美国的电商。因为受到地区限度,这两家机构的用户群体交加很小。同时,因为机构类型的不同,二者的数据特色也只有小局部重合。在这种状况下,要想进行无效的联邦学习,就必须引入迁徙学习,来解决单边数据规模小和标签样本少的问题,从而晋升模型的成果。

▲ 学习过程

联邦迁徙学习的步骤与纵向联邦学习类似,只是两头传递后果不同(实际上每个模型的两头传递后果都不同)。

以上是常见的几种联邦学习类型,联邦学习这件“小事”能用在什么场景中,带来怎么的价值,会在下一篇文章中具体介绍。也欢送各位与咱们一起对以上三种类型的联邦学习进行更深一步的探讨,增加小助手(18458407117)退出技术交换群。

作者简介

严杨

来自数据网格实验室 BitXMesh 团队
PirvAI の修道者

退出移动版