关于学习:数据可用不可见百度新版本联邦学习PaddleFL来了

45次阅读

共计 1680 个字符,预计需要花费 5 分钟才能阅读完成。

随同着智能化时代的迈进,AI 无处不在,万事皆可智能化,很多企业走到了时代的风口,也一直有着更多的企业想跻身队伍,跨上 AI 大时代的战车。大家都深知人工智能的三大基石是:算法、算力与数据。传统企业有着丰盛的数据根底,却不足技术能力;新型企业的技术能力紧跟时代步调却苦于数据瘠薄。算力能够花钱买到,算法能够通过造就招聘技术人才来补齐,然而数据匮乏却使人在人工智能赛道上举步维艰。

在国内外监管环境日渐欠缺的明天,大家都在增强数据保护意识,很多有微小价值的数据即便在公司外部都无奈流通,从而造成数据孤岛。我国在往年 9 月推广的《中华人民共和国数据安全法》、将在 11 月 1 日起实施《中华人民共和国个人信息保护法》,都进一步要求数据在平安合规的前提下进行流动,这也让联邦学习再次掀起一波浪潮。

百度点石提供数据安全交融与应用服务、大数据核心技术能力,基于联邦学习、多方平安计算、可信执行环境等支流隐衷计算技术,平安高效实现数据赋能,助力客户晋升数据价值。
其中,基于百度飞桨开发的开源联邦学习框架 PaddleFL,让企业之间的单干可能在数据层面平安发展。开发人员很容易在大规模分布式集群中部署 PaddleFL 联邦学习零碎。PaddleFL 提供多种联邦学习策略(横向联邦学习、纵向联邦学习)及其在计算机视觉、自然语言解决、举荐算法等畛域的利用。

最近,PaddleFL 新版本 PaddleFL v1.1.2 版本正式公布,在后期三方平安计算协定之上,新增了面向两方场景的平安计算协定以及平安联邦学习实现。新增个性形容如下:

1. 两方平安计算协定 PrivC 实现

PrivC 协定实现总体参考了 ABY 协定,反对两方 peer-to-peer 计算模型以及外包计算模型,提供了半诚恳模型下的计算安全性。在 ABY 协定混合电路计算的思维上,PrivC 进行了一系列实现优化,如以 tensor 为单位聚合通信晋升吞吐量,应用 FreeXOR、HalfGate 等办法升高加密电路运算开销,应用全同态加密计算乘法三元组等,并对非线性机器学习算子进行了近似实现,无效地晋升了两方平安学习的性能。

2. 基于 PrivC 的两方平安联邦学习

PaddleFL 在 PrivC 协定的根底上,为只有两个参与方状况下的联邦学习场景提供了针对性的解决方案。PaddleFL 目前提供了纯两方的矩阵乘法、fc、relu、sigmoid、softmax 等机器学习罕用算子及其梯度计算实现,反对两方场景下的线性回归、对率回归、多层感知机等模型的训练与预测,具备低劣的性能。


图 1 PaddleFL with PrivC 运行示意图

PaddleFL 在两方条件下的训练性能如下:

2.1 场景一 线性回归:

数据集与训练参数:
UCI 波士顿房价,epoch = 20,batch_size = 10,lr = 0.1;
数据量:506 行,80% 用于训练,20% 用于测试

2.2 场景二 逻辑回归:

数据集与训练参数:
MNIST 数据集(label 批改为二分类,“1”为 1,其余为 0),epoch = 1,batch_size = 128,lr = 0.01;
数据量:50 000 条训练样本,10 000 条测试样本

3. 在线数据切片与散发

在 1.1.2 版本中,新增了对数据在线切片(secret-share)与散发的反对。在以前版本中,各实体间只能通过离线形式对数据进行切片,而后独自传输到计算方上。而在 PaddleFLv1.1.2 中,各实体间能够通过在线形式对明文数据进行切片与散发,免去了两头数据存储的步骤。

4. 减少对 gRPC 通信模式的反对

在 1.1.2 版本中,新增了对 gRPC 协定的反对,用户能够依据须要指定采纳 Gloo 通信模式或是 gRPC 通信模式。利用 gRPC 通信协议,能够有效应对网络不稳固造成的闪断等状况,并对将来实现网络隔离条件下的端口收敛与单向通信提供了条件。

百度点石联邦学习平台兼容 PaddleFL,为跨机构数据流通提供“可用不可见,相逢不相识”的极致平安体验。以此解决金融、政府、医疗、互联网等客户在联结风控、联结营销、联结剖析等场景的数据安全和隐衷爱护需要,实现数据价值极大开释。
点击进入取得更多技术信息~~

正文完
 0