共计 7151 个字符,预计需要花费 18 分钟才能阅读完成。
作者:vivo 互联网安全团队 - Tu Daxi
随着计算力、算法和数据量的微小倒退,人工智能迎来第 3 次倒退低潮,开始了各行业的落地摸索。然而,在“大数据”衰亡的同时,更多行业应用领域中是“小数据”或者品质很差的数据。“数据孤岛”景象宽泛存在,例如在信息安全畛域的利用中,尽管多家企业推出了基于人工智能技术的内容平安审核、入侵检测等平安服务,但出于用户隐衷和商业秘密的思考,企业之间很难进行原始数据的替换,各个企业之间服务是独立的,整体合作和技术水平很难在短时间内实现冲破式倒退。如何在爱护各机构数据隐衷的前提下促成更大范畴的单干,是否通过技术手段破解数据隐衷爱护难题,联邦学习是解决这一问题、实现跨企业协同治理的无效形式。
一、引言
最近的 ChatGPT(全称:Chat Generative Pre-trained Transformer)在各类社交媒体上风头无二,其是由 OpenAI 开发的一个人工智能聊天机器人程序,于 2022 年 11 月推出。该程序应用基于 GPT-3.5 架构的大型语言模型并通过强化学习进行训练,公布至今,OpenAI 估值已涨至 290 亿美元,上线两个月后,用户数量达到 1 亿。再往前看 2016 年,人工智能曾经初现走向成熟的端倪,这一年随着 AlphaGo 击败人类顶尖围棋选手李世石、柯洁,咱们真正见证了人工智能(AI)的微小后劲,并开始冀望在许多利用中应用更简单,最先进的 AI 技术,包含无人驾驶汽车,医疗保健。现在,人工智能技术正在简直每个行业中展现其劣势。
然而,当咱们回顾 AI 的倒退时,不可回避的是 AI 的倒退经验了几次起伏。人工智能会不会再下滑呢?什么时候呈现?因为什么因素?以后公众对 AI 的趣味局部是由大数据的可用性驱动的:2016 年 AlphaGo 总共应用了 30 万场游戏作为训练数据,以获得杰出的问题。随着 AlphaGo 的胜利,人们天然心愿像 AlphaGo 这样的大数据驱动的 AI 将成为在咱们生存的各个方面。然而,人们都很快意识到事实世界中的状况有些令人悲观:
图 1:人工智能倒退挑战
- 事实中,咱们的数据品质是十分无限甚至是差的,比方聊天数据中有很多乐音。
- 数据标签的收集是比拟艰难的,很多场景中的数据是没有标签的。
- 数据是孤岛的,这也是最重要一点,每家利用的数据不一样,比方主营社交软件的公司用的是社交属性数据,主营电商的公司用的是电商交易数据,银行用的是信用数据,都是扩散来利用的。事实中,如何进行跨组织间的数据单干,会有很大的挑战。
- 同时隐衷爱护政策变严格,这是重要的第二点,这些条例使得很多机构不可能把用户的数据收集起来、集中起来做剖析,数据被条例爱护在用户本地了。
数据是人工智能时代的石油,然而因为监管法规和商业秘密等因素限度,“数据孤岛”景象越来越显著。同时随着政策法规的逐步欠缺和公众隐衷保护意识增强,如何在爱护数据隐衷的前提下实现行业合作和协同治理,如何破解“数据孤岛”和“数据隐衷爱护”的两难窘境,成为了当下人工智能技术行业利用中亟待解决的问题。
二、联邦学习概述
2.1“数据隐衷爱护”与“数据孤岛”窘境
数据孤岛和数据隐衷爱护的两难窘境:一是来自于人工智能技术自身的特点,须要海量数据作为根底;二是来自于世界范畴内对数据隐衷和平安的日益器重。
人工智能技术尤其是深度学习依赖于模型、算法,更依辍于通过海量数据进行模型训练。从而不断改进,仅依附某一机构所把握的数据,无奈实现技术的疾速冲破。现实状态是在数据之间建设广 泛连贯,造成合力,发明更大价值。而现实情况是:无效数据往往难以获取或以“数据孤岛”的模式出现。公司之间的数据共享须要用户的受权,而许多用户偏向于回绝数据共享;即使一个公司外部,数据壁垒也不易买通;互联网巨头的存在,使得多数公司袭断大量数据。这些因素都会导致数据孤岛,难以发明出“1+1>2”的数据价值。
寰球范畴内对数据隐衷和平安的器重带来了更大挑战,这个挑战导致大部分企业只拥用小数据,加剧了数据孤岛景象的产生。欧盟出台了首个对于数据隐衷爱护的法案《通用数据保护条例》(General Data Protection Regulation, GDPR),明确了对数据隐衷爱护的若干规定。和以往的行业标准不同,这是一个真正能够执行的法律,并且条款十分清晰严格。例如,经营者要容许用户来表白数据“被忘记”的欲望,即“我不心愿你记住我过来的数据,并心愿从现在起你不要利用我的数据来建模”。与此同时,违反 GDPR 的结果也十分重大,罚款能够高达被罚机构的寰球营收的 4%。Facebook 和 Google 曾经成为基于这个法案的第 1 批原告。而中国在 2017 年起施行的《中华人民共和国网络安全法》和《中华人民共和国民法总则》中也指出:“网络运营者不得泄露、篡改、破坏其收集的个人信息,并且与第三方进行数据交易时需确保拟定的合同明确约定拟交易数据的范畴和数据保护任务”。这意味着对于用户数据的收集必须公开、通明,企业、机构之间在没有用户受权的状况下不能替换数据。
尽管有明确的法律法规并且在寰球范畴内达成了宽泛共识,但因为技术等因素的限度,理论利用中,数据隐衷爱护依然是难题。收集数据的一方往往不是应用数据的一方,例如 A 方收集数据,转移到 B 方荡涤,再转移到 C 方建模,最初将模型卖给 D 方应用。这种数据在实体间转移、替换和交易的模式违反了相干法律法规,并可能受到严格的惩办。如何在爱护数据隐衷的前提下,从技术上解决数据孤岛的问题,在隐衷平安和监管要求下,如何让 AI 零碎更加高效、精确地独特应用各自的数据,可能在小数据(很少的样本和特色)和弱监督(有很少的标注)的条件下做更好的模型,人们提出联邦学习的解决方案,并且一直摸索其在具休行业场景下的利用。
2.2 联邦学习定义
数学定义:
定义 N 个数据持有者 {F1,F2,F3…,Fn},他们都心愿通过整合各自的数据 {D1,D2,D3…,Dn} 来训练机器学习模型。传统的办法是将所有数据放在一起应用 D=D1 U D2 U…U Dn 来训练出一个模型 MSUM,而联邦零碎是一个学习过程,在此过程中,所有数据持有者合作训练模型 MFED,并且对任意一个数据持有者 Fi 不会将其独享的数据 Di 裸露给其他人。除此之外,模型 MFED 的准确性定义为 VFED 其应该是十分靠近于将数据集中放一起训练的模型 MSUM 的准确度 VSUM. 用公式定义,让 δ 为非负实数,如果
| VFED – VSUM |< δ</p>
则称该联邦学习算法有 δ 的精度损失。
图 2.1:联邦学习模型组成
在 Peter 等在综述【1】中给出的上图定义中能够清晰看出,联邦学习指的是在满足隐衷爱护和数据安全的前提下设计一个机器学习框架,使得其中许多客户端(例如挪动设施或整个组织)在地方服务器(例如服务提供商)的协调下 独特训练模型 ,同时放弃训练数据的 去中心化及分散性,实现在不裸露数据的状况下剖析和学习多个数据拥有者的数据。同时从定义中能够为其总结四大特色:
- 数据隔离:联邦学习的整套机制在单干过程中,数据不会传递到内部,数据保留在本地,防止数据泄露,满足用户隐衷爱护和数据安全的需要。
- 无损:通过联邦学习扩散建模的成果和把数据合集中在一起建模的成果比照,简直是无损的。
- 独特获益:可能保障参加各方在放弃独立性的状况下,进行信息与模型参数的加密替换,并同时取得成长。
- 对等:在联邦学习的框架下,各参与者位置对等,可能实现偏心单干,不存在一方主导另一方的状况。
2.3 联邦学习隐衷性
隐衷是联邦学习的根本属性之一,这须要平安模型和剖析以提供有意义的隐衷保障。在本节中,将简要介绍和比拟联邦学习的不同隐衷技术,并确定办法和后劲避免间接透露的挑战。
多方平安计算(Secure Multi-party Computation, SMC):
SMC 平安模型天然波及多方参加,并在定义良好的模仿框架中提供平安证实,保障齐全零常识,即每一方除了本人的输出和输入外无所不知。零常识是十分可取的,然而这种所需的属性通常须要简单的计算协定并且可能无奈无效地实现。在某些状况下,如果提供平安保障,局部常识披露可能被认为是能够承受的。能够在较低的平安要求下用 SMC 构建平安模型以换取效率。
差分隐衷计算(Differential Privacy):
应用差分隐衷或 k- 匿名算法来爱护数据隐衷。差分隐衷计算、k- 匿名计算和演变计算的办法包含在数据中退出噪声,或者应用泛化办法来覆盖某些敏感属性,直到第三方无奈辨别个体,从而使数据无奈被敌手复原,进而起到爱护用户隐衷的作用。
同态加密计算(Homomorphic Encryption):
在机器学习过程中,还采纳同态加密通过加密机制下的参数替换来爱护用户数据隐衷。与差分隐衷爱护不同,数据和模型自身不传输,也无奈通过对方的数据进行猜想。因而,原始数据层面泄露的可能性很小。最近的工作采纳同态加密来集中和训练云上的数据。在实践中,加法同态加密被宽泛应用,并且须要进行多项式迫近来评估机器学习算法中的非线性函数,从而导致准确性和隐衷之间的衡量。
2.4 联邦学习分类
在理论利用中,因为孤岛数据具备不同的散布特点,所以联邦学习也可分为:横向联邦学习、纵向联邦学习、联邦迁徙学习 3 大类:
图 2.2:联邦学习分类
如果要对用户行为建设预测模型,须要有一部分的特色,即原始特色,叫作 X,例如用户特色,也必须要有标签数据,即冀望取得的答案,叫作 Y。比方,在金融畛域,标签 Y 是须要被预测的用户信用;在营销畛域,标签 Y 是用户的购买欲望;在教育领域,则是学生把握常识的水平等.用户特色 X 加标签 Y 形成了残缺的训练数据 (X,Y)。然而,在事实中,往往会遇到这种状况:各个数据集的用户不完全相同,或用户特色不完全相同。具体而言,以蕴含 2 个数据领有方的联邦学习为例,数据分布能够分为 3 种状况:
- 2 个数据集的用户特色重叠局部较大,而用户重叠局部较小,如图 2.2 中 (a) 所示;
- 2 个数据集的用户重叠局部较大,而用户特色重叠局部较小,如图 2.2 中 (b) 所示;
- 2 个数据集的用户与用户特色重叠局部都比拟小,如图 2.2 中 (c) 所示。
为了应答以上 3 种数据分布状况,咱们把联邦学习分为 横向联邦学习、纵向联邦学习与联邦迁徙学习。
2.5 联邦学习步骤
个别一个联邦学习模型次要有联邦学习零碎架构和加密模型训练两大部分组成[2]。假如现有两个数据领有方(组织 A 和组织 B)心愿联结训练一个机器学习模型,它们的业务零碎别离领有各自用户的相干数据。此外,组织 B 还领有模型须要预测的标签数据。出于数据隐衷和平安思考,组织 A 和组织 B 无奈间接进行数据交换。此时,可应用联邦学习零碎建设模型,零碎架构由 2 局部形成,如图 2.3 所示:
图 2.3:联邦学习零碎架构
整个进行的步骤能够分为:
(1)加密样本对齐:因为 2 家组织的用户群体并非齐全重合,零碎利用基于加密的用户样本对齐技术,在组织 A 和组织 B 不公开各自数据的前提下确认单方的共有用户,并且不裸露不相互重叠的用户,以便联结这些用户的特色进行建模。
(2)加密模型训练 :在确定共有用户群体后,就能够利用这些数据训练机器学习模型。为了保障训 练过程中数据的保密性,须要借助第三方协作者 C 进行加密训练。以线性回归模型为例,训练过程可分为以下 4 步(如图(b) 所示):
- 协作者 C 把公钥分发给模型 A 和模型 B,用以对训练过程中须要替换的数据进行加密。
- 对齐数据 A 和对齐数据 B 之间以加密模式交互用于计算梯度的两头后果。
- 对齐数据 A 和对齐数据 B 别离基于加密的梯度值进行计算,同时对齐数据 B 依据其标签数据计算损失,并把这些后果汇总给协作者 C。协作者 C 通过汇总后果计算总梯度并将其解密。
- 协作者 C 将解密后的梯度别离回传给模型 A 和模型 B;模型 A 和模型 B 依据梯度更新各自模型的参数。迭代上述步骤直至损失函数收敛,这样就实现整个训练过程。在样本对齐及模型训练过程中,组织 A 和组织 B 各自的数据均保留在本地,且训练中的数据交互也不会导致数据隐衷泄露。因而,单方在联邦学习的帮忙下得以实现单干训练模型。
(3)成果激励:联邦学习的一大特点就是它解决了为什么不同机构要退出联邦独特建模的问题,即建设模型当前模型的成果会在理论利用中体现进去,并记录在永恒数据记录机制(如区块链)上。提供数据多的机构会看到模型的成果也更好[3],这体现在对本人机构的奉献和对别人的奉献。这些模型会向各个机构反馈其在联邦机制上的成果,并持续激励更多机构退出这一数据联邦。
以上 3 个步骤的施行,既思考了在多个机构间独特建模的隐衷爱护和成果,又思考了如何处分奉献数据多的机构,以一个共识机制来实现,所以,联邦学习是一个“闭环”的学习机制。
三、总结瞻望
3.1 总结
联邦学习作为隐衷加强计算与人工智能相结合的新型技术范式,成为了解决数据安全与凋谢共享矛盾的一个重要技术门路。联邦学习中,用户能够在本人的终端应用本地数据对模型进行训练,并将模型的加密参数进行上传汇总,将不同的模型更新进行交融,优化预测模型。
2022 年是联邦学习的技术分水岭——从联邦学习到可信联邦学习。针对近两年来隐衷计算和联邦学习倒退和利用中面临的平安、效率等挑战,“可信联邦学习”被提出,这一范式将隐衷爱护、模型性能、算法效率作为外围,独特形成了更加平安可信的联邦学习。
3.2 落地瞻望
目前,联邦学习曾经开始了在行业畛域的落地摸索,在不同的行业有多样化的利用场景和落地状态,将来在一些畛域可能有以下广大前景[4-10]:
在手机畛域,近年来,挪动设施装备了越来越先进的传感和计算能力。再加上深度学习 (Deep Learning,DL) 的提高,这为有意义的利用开拓了有数可能性,例如,用于智能车载和辅助驾驶。传统的基于云的机器学习 (Machine Learning,ML) 办法须要将数据集中在云服务器或数据中心。然而,这会导致与不可承受的提早和通信效率低下相干的关键问题。为此,有人提出了挪动边缘计算 (Mobile Edge Computing,MEC),以使产生数据的边缘设施变得更加智能。然而,传统的挪动边缘网络 ML 反对技术依然须要与内部各方共享集体数据,例如边缘服务器。最近,鉴于越来越严格的数据隐衷立法和日益增长的隐衷问题,联邦学习(FL)的概念被引入。在 FL 中,终端设备应用其本地数据来训练服务器所需的 ML 模型。而后终端设备将模型更新而不是原始数据发送到服务器进行聚合,这将进一步减速产生数据的终端设备变得更加智能;
在风控畛域,多家金融机构联结建模的风控模型能更精确地辨认信贷风险,联结反欺诈。多家银行建设的联邦反洗钱模型,能解决该畛域样本少、数据品质低的问题。
在智慧批发畛域,联邦学习能无效晋升信息和资源匹配的效率。例如,银行领有用户购买能力的特色,社交平台领有用户集体偏好特色,电商平台则领有产品特点的特色,传统的机器学习模型无奈间接在异构数据上进行学习,联邦学习却能在爱护三方数据隐衷的根底上进行联结建模,为用户提供更精准的产品举荐等服务,从而突破数据壁垒,构建跨畛域单干。
在医疗衰弱畛域,联邦学习对于晋升医疗行业合作程度更具备突出意义。在推动智慧医疗的过程中,病症、病理报告、检测后果等病人隐衷数据经常扩散在多家医院、诊所等跨区域、不同类型的医疗机构,联邦学习使机构间能够跨地区合作而数据不出本地,多方单干建设的预测模型可能更精确地预测痛症、基因疾病等疑难病。如果所有的医疗机构能建设一个联邦学习联盟,或者能够使人类的医疗卫生事业迈上一个全新的台阶。
参考文献:
- [1] Kairouz P, McMahan H B, Avent B, et al. Advances and open problems in federated learning[J]. Foundations and Trends® in Machine Learning, 2021, 14(1–2): 1-210.
- [2] Li T, Sahu A K, Talwalkar A, et al. Federated learning: Challenges, methods, and future directions[J]. IEEE signal processing magazine, 2020, 37(3): 50-60.
- [3] 中国计算机学会.联邦学习助力 loT?从“数据孤岛”走向“共同富裕”[OL]. [2019 一 8 一 15].
- [4] 杨强. GDPR 对 AI 的挑战和基于联邦迁徙学习的对策[J]. 中国人工智能学会通信,2018,8:1-8
- [5] Zhang C, Xie Y, Bai H, et al. A survey on federated learning[J]. Knowledge-Based Systems, 2021, 216: 106775.
- [6] Kairouz P, McMahan H B, Avent B, et al. Advances and open problems in federated learning[J]. Foundations and Trends® in Machine Learning, 2021, 14(1–2): 1-210.
- [7] 数据不动模型动 - 联邦学习的艰深了解与概述[OL]. [2023-02-11].
- [8] 明天,ChatGPT 为联邦学习写了一首诗[OL]. [2023-02-11].
- [9] 解涩源. 字节跳动在联邦学习畛域的摸索及实际[OL]. [2023-02-11].
- [10] Yang Q, Liu Y, Chen T, et al. Federated machine learning: Concept and applications[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2019, 10(2): 1-19.MLA