联邦学习概述

4次阅读

共计 2184 个字符,预计需要花费 6 分钟才能阅读完成。

联邦学习

  • 多个客户端在一个中央服务器下协作式地训练模型的机器学习设置,能够保证训练数据去中心化。联邦学习使用局部数据收集和最小化原则,降低传统中心化机器学习方法带来的一些系统性隐私风险和成本。
  • 我的理解:类似美国联邦制,中央权限小,地方权限大,所以隐私泄露风险小

联邦学习背景和重要性

  • 人工智能现状:人们希望由算法和大数据驱动的人工智能广泛使用于各个领域(如 AlphaGo 以 30 万棋局作为训练数据)。但是,大多数领域数据有限、质量较差,如医疗领域需要医生标注数据,但是医生时间有限;而且数据源以孤岛形式存在,难以整合数据,如产品推荐系统中销售方和平台、用户的数据壁垒
  • 人工智能面临挑战:数据隐私和安全受到重视,但是现在收集数据、分析使用数据的不是同一方,在实体间转移数据违反法律。
  • 所以,一个能够保护数据隐私的机器学习框架——联邦学习应运而生。具有以下特点:

(1)各自数据保留在本地,不侵犯隐私
(2)参与者联合数据建立虚拟的共有模型,共同获益
(3)在数据用户或特征对齐时,效果和数据放一起相同;不对齐时,通过迁移学习(数据间交换加密参数)也能达到效果

联邦学习定义及价值分析

  • 定义:机器学习中,各方借助他方数据联合建模;但是各方数据不出本地(不共享数据),而是通过加密机制的参数交换
  • 联邦学习和其他相关概念关系

(1)联邦学习和数据分析的隐私保护理论

大数据的隐私保护理论(差分保护理论、k 匿名、i 多样化)通过在数据里加噪音,或采用概括化的方法模糊某些敏感属性,使数据难以被还原。本质还是进行了原始数据传输,存在被潜在攻击的可能。

联邦学习通过加密机制下的参数交换保护隐私,更加安全

(2)联邦学习和分布式机器学习

分布式学习是一个 master 占据主导地位,给 slave 调配数据、分配计算。

联邦学习各节点完全自治,数据自治,是否加入建模自己决定

(3)联邦学习和联邦数据库

联邦数据库是将多个数据库进行集成,集成后整体管理。

两者都是分布式存储,且各个单元数据库数据异构。

但是数据库不涉及隐私保护机制,各个数据库对于管理系统都是完全可见

联邦计算分类

  • 在实际中,孤岛数据具有不同分布特点,根据这些特点,我们可以提出相对应的联邦学习方案。下面,我们将以孤岛数据的分布特点为依据对联邦学习进行分类。
  • 考虑有多个数据拥有方,每个拥有方各自所持有的数据集 D_ i 可以用一个矩阵来表示。矩阵的每一行代表一个用户,每一列代表一种用户特征。如果要对用户行为建立预测模型,还必须要有标签数据。我们可以把用户特征叫做 X,把标签特征叫做 Y。比如,在金融领域,用户的信用是需要被预测的标签 Y; 在营销领域,标签是用户的购买愿望 Y; 在教育领域,则是学生掌握知识的程度等。
  • 用户特征 X 加标签 Y 构成了完整的训练数据(X, Y)。但是,在现实中,往往会遇到这样的情况: 各个数据集的用户不完全相同,或用户特征不完全相同。具体而言,以包含两个数据拥有方的联邦学习为例,数据分布可以分为以下三种情况:

(1)两个数据集的用户特征 (X1,2… 重叠部分较大,而用户(U1, U… 重叠部分较小;
(2)两个数据集的用户(U1, 2… 重叠部分较大, 而用户特征(.,2…) 重叠部分较小;
(3)两个数据集的用户 (U1, U2…) 与用户特征重叠 (X1,2…) 部分都比较小。

  • 为了应对以上三种数据分布情况,我们把联邦学习分为横向联邦学习、纵向联邦学习与联邦迁移学习

(1)横向联邦学习

在两个数据集的用户特征重叠较多而用户重叠较少的情况下,我们把数据集按照矩阵的横向 (即用户维度) 切分,并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。这种方法叫做横向联邦学习。比如有两家不同地区银行,它们的用户群体分别来自各自所在的地区,相互的交集很小。但是,它们的业务很相似,因此,记录的用户特征是相同的。此时,就可以使用横向联邦学习来构建联合模型。

(2)纵向联邦学习

在两个数据集的用户重叠较多而用户特征重叠较少的情况下,我们把数据集按照纵向 (即特征维度) 切分, 并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。这种方法叫做纵向联邦学习。比如有两个不同机构,一家是某地的银行,另一家是同一个地方的电商。它们的用户群体很有可能包含该地的大部分居民,因此用户的交集较大。但是, 由于银行记录的都是用户的收支行为与信用评级, 而电商则保有用户的浏览与购买历史, 因此它们的用户特征交集较小。纵向联邦学习就是将这些不同特征在加密的状态下加以聚合,以增强模型能力的联邦学习。目前,逻辑回归模型,树型结构模型和神经网络模型等众多机器学习模型已经逐渐被证实能够建立在这个联邦体系上。

(3)联邦迁移学习

在两个数据集的用户与用户特征重叠都较少的情况下,我们不对数据进行切分,而可以利用迁移学习来克服数据或标签不足的情况,这种方法叫作联邦迁移学习。比如有两个不同机构,一家是位于中国的银行,另一家是位于美国的电商。由于受到地域限制,这两家机构的用户群体交集很小。同时,由于机构类型的不同,二者的数据特征也只有小部分重合。在这种情况下,要想进行有效的联邦学习,就必须引入迁移学习,来解决单边数据规模小和标签样本少的问题,从而提升模型的效果。

联邦学习框架

  • 目前业界中主要的联邦学习框架有 FATE, TensorFlow Federatedl241, PaddleFL25), Pysyft 等。

正文完
 0