乐趣区

关于数据库:联邦计算在百度观星盘的实践

导读:本文简短综述联邦计算畛域的核心技术点,随着联邦计算在产业界的利用及遍及,爱护数据隐衷与解决数据孤岛,二者能够兼得,为数字广告营销等畛域提供了一个全新思路。

全文 4761 字,预计浏览工夫 12 分钟。

一、导语

家喻户晓,数据是 AI 技术的燃料,更多高质量的数据意味着能够训练出更好性能的业务模型。随着 IT 挪动化步调地迈进,互联网数据被割裂为一个个孤岛,制约 AI 倒退的一个瓶颈是爱护用户数据隐衷和突破不同主体之间数据孤岛的问题。随着挪动设施性能的强化,4G/5G 的衰亡遍及,在挪动终端上进行模型训练变得可行。2016 年,Google 团队公布了一篇论文:Communication-Efficient Learning of Deep Networks from Decentralized Data。自此,产业界联邦学习(「Federal Learning」,Google 中文命名为联盟学习,国内习惯称为联邦学习)的大幕开启。

△图片来__源:《Federated L__earning: Collaborative Machine Learning without Centralized Training Data》

在数百万不同的智能手机上部署联邦学习,其本质是挪动模型,而非挪动数据。为防止用户隐衷泄露,联邦学习不须要在云端存储用户数据。智能手机下载以后版本的模型,通过学习本地数据来改良模型,并把模型改良增量加密发送到云端,与其余用户的更新即时整合为共享模型,所有的训练数据依然在各终端用户的设施中,用户数据不会在云端保留。

在国内隐衷数据条例(GDPR 等)趋严的局势下,以 Google 为代表的 ToC 业务(如输入法)开拓了一个全新的思路。国内,联邦学习在产业界延长至 ToB 畛域,解决 ToB AI 的困局:隐衷爱护与数据孤岛问题。比方风控、营销等波及到大规模的用户数据交互,隐衷爱护价值更高。2019 年底,百度、微众、蚂蚁、富数、华控等 5 家公司,取得了信通院的平安计算证书,是以后平安计算资质中最具影响力的认证。

二、联邦计算核心技术

为联结买通数据孤岛,解决参与方的数据安全可信隐衷爱护问题,狭义的联邦计算 「Federated Computing」 实现计划包含:以密码学为外围的 MPC 多方平安计算「Secure Multi-Party Computation」,以及硬件可信执行环境 TEE「Trusted Execution Environment」

2.1 多方平安计算(MPC:Secure Multi-Party Computation)

多方平安计算 MPC 以密码学为实践根底,采纳算法 / 程序逻辑层面保障计算的平安可信赖的根本理念,其安全性是可通过数学公式推导验证的。MPC 不依赖于硬件等环境设施,即对各类异构的零碎环境有兼容性,不依赖特定硬件。

2.1.1 混同电路(Garbled Circuit)

混同电路是一种密码学协定。图灵奖得主姚期智院士在 1982 提出驰名的 Yao’s Millionaires’ Problem,并给出了基于混同电路的解决方案。该问题是 Alex 和 Bob 在无可信第三方,且不告知对方财产值的状况下比谁更富裕。

其原理为:所有可计算的函数问题都可转换为不同的电路,由加法电路、乘法电路、移位电路、抉择电路等示意。而电路实质上由门(gate)组成,逻辑门包含与门、非门、或门、与非门等。混同电路把这些门进行加密和打乱来覆盖信息。Alice 用密钥加密门的真值表并打乱后输入给 Bob。Bob 对真值表的每行进行解密,算法保障只有一行可解密胜利,并提取后果。最初 Bob 将后果同步给 Alice。过程中,二者替换的都是随机数或密文,无隐衷数据泄露,但从程序逻辑层面实现了所需业务的计算。

2.1.2 机密分享(Secret Sharing)

机密共享(也称为机密宰割)是指用于在一组参与者之间散发机密的办法,每个参与者被调配一个机密的份额。只有当足够数量的不同类型的份额组合在一起时,能力重建机密,集体份额自身无意义。

在机密分享中,最经典的算法是 Shamir’s Secret Sharing,它最根本的设计原理是:立体上 k 个点能够惟一确定一个 k−1 阶的多项式

如两个点能够惟一确定一条直线。咱们把 a0 作为机密 S。咱们从曲线上任取 n 个点(i,f(i)),每个参与者调配一个点,作为一个明码的份额,则凑齐任意 k 个参与方则可还原出机密 S。此处,可基于拉格朗日差值办法计算多项式,本文不做开展。

2.1.3 同态分享(HE:Homomorphic Encryption)

同态加密的概念早在 1978 年在银行利用背景下被提出,作者是 RSA 算法中的 R(Ron Rivest) 和 A(Leonard Adleman)以及 Michael L. Dertouzos。对于同态加密的概念援用同态加密大牛 Craig Genty 的定义:

「A way to delegate processing of your data, without giving a way access to it.」

即使用者能够在不接触原数据的状况下进行数据处理。其本质是:应用方间接解决密文,而后解密密文失去的明文后果与间接解决明文失去后果等价。精美之处在于,数据的解决方并不知道数据的明文,却最终计算失去业务冀望的后果,即数据提供方未泄露其原始数据,无效爱护数据隐衷。

同态加密的数学定义为:E(m1)*E(m2)=E(m1*m2) ∀ m1,m2∈M

其中,E 为加密算法,M 是所有信息的汇合,* 示意运算符。如果加密算法满足如上公式,则 E 在运算 * 上的性能合乎同态加密性质。

依据反对的运算的数量及次数可对 HE 进行分类:以后局部同态加密(PHE)、档次同态加密(SWHE)在业界生产环境已有利用,全同态加密(FHE)效率较低,以后尚无奈撑持大规模计算。

2.2 硬件可信执行技术环境(TEE:Trusted Execution Environment)

可信执行环境(TEE)是主处理器的平安区域。它保障外部加载的代码和数据在机密性和完整性方面受到爱护。TEE 作为独立执行环境,可提供各种平安性能:如隔离执行,应用程序的完整性,以及其资产的机密性。其保障平安的外围机制是:指令集扩大, 旨在以硬件安全为强制性保障, 不依赖于固件和软件的平安状态。

△图片起源__:Gidon Gershinsky《Trust Management in Intel SGX Enclaves》

Intel® Software Guard Extensions (Intel® SGX)爱护选定的代码和数据不被泄露和批改。开发者能够把应用程序划分到 CPU 强化的 encalve 飞地中,即便在受攻打的平台环境(操作系统 / 虚拟机)中也能进步安全性。应用该应用层可信执行环境,开发者可能启用身份和记录隐衷、平安浏览和数字治理爱护(DRM)或者任何须要平安存储秘密或者爱护数据的高保障平安利用场景。

除了英特尔 SGX,TEE 计划还包含 ARM 的 TrustZone,AMD 点平安加密虚拟化 SEV 和 NVIDIA 的可信小内核 TLK 等。各厂商基于硬件的计划,其外围都是实现最小可能的攻击面:CPU 边界成为攻击面外围,所有的数据、内存、外围之外的 I / O 都是加密的。

2.3 MPC 与 TEE 横向比照

MPC 计划与 TEE 计划横向比对如下:

2.4 联邦学习分类

联邦学习定义为:在进行机器学习的过程中,各参与方能够借助其余方数据进行联结建模。各方无需共享数据资源,即数据不出本地的状况下,进行数据联结训练,建设共享的机器学习模型。联邦学习能够分为三类:

  • 「横向联邦学习」
    横向联邦学习(基于用户纬度切分)实用于两个数据集共享雷同的特色空间但样本 ID 空间不同的状况。应用单方用户特色雷同但用户不完全相同的数据进行训练。
  • 「纵向联邦学习」
    纵向联邦学习(基于特色纬度切分)实用于两个数据集共享雷同的样本 ID 空间但特色空间不同的状况。取出单方用户雷同而用户特色不完全相同的那局部数据进行训练。
  • 「联邦迁徙学习」
    联邦迁徙学习实用于两个数据集不仅在样本上而且在特色空间上都不同的状况。该场景下,不对数据进行切分,而能够利用迁徙学习来克服数据或者标签有余的状况。

三、百度联邦计算业务

3.1 百度联邦计算特色

如百度平安计算白皮书所述,百度在数据安全和隐衷爱护畛域产品的次要翻新点包含:

  • 「多种技术有机交融,笼罩数据安全和隐衷爱护的多种场景」

平台将 MPC、TEE、DP 等当先技术进行有机交融,供一整套面向多方平安计算的数据安全解决方案,在爱护企业数据资产的根底上,无效防备用户隐衷泄露危险,笼罩数据安全和隐衷爱护的多种场景。

  • 「独特多方平安计算 DSL 语言,平安可控“电子合约”运行机制」

平台为多方平安计算场景设计专用的 DSL 语言,来形容多方数据联结计算全过程的简单逻辑,造成多方平安计算“电子合约”,经各参与方确认后能力执行,参与方明确通晓数据应用形式,联合多方平安计划实现数据安全可控。

  • 「多方平安计算技术深度优化,反对海量数据的多方平安计算」

平台为适应百度大规模数据安全计算需要,通过大规模工程化革新和多种性能优化,反对百亿级数据多方平安计算,轻松胜任各种多方平安计算场景,为多方平安计算从学术界走向工业界供技术保障。

3.2 百度联邦计算典型业务

联邦计算模式可利用广告营销畛域,其中人群定向是重要的一个分支。联邦精准人群是指基于单方的全量大数据,进行 ID 的隐衷数据求交(PSI:Private Set Intersection),基于客户一方的精准数据,在媒体侧进行广告投放。并且实现客户数据的 「可用不可见,相逢不相识」 的成果,无效爱护了客户数据的隐衷性。

内部合作伙伴,如广告主将数据保留在本人的服务器或云存储中,百度数据保留在百度域下。BFC「Baidu Federated Computing」主节点协调各方计算节点,不接触各方本地数据。在保证数据不出域的前提下,各计算节点间进行参数等加密信息的交互,最终实现业务模型的计算。营销实际案例表明联邦精准人群模式基于客户一方的大数据可大幅晋升客户的 ROI。

为了解决联结营销场景中的数据安全合规问题,基于百度平安、联手数据流通服务应用“联邦计算”技术,为观星盘开拓了“联结营销绿色通道”。在保障各方敏感数据不出域的前提下,基于“可用不可见”的平安计算,将百度观星盘数据和广告客户数据安全买通,以实现联结精准营销。

业务后续瞻望,基于联邦计算 / 联邦学习可在广告营销全链路(投前洞察、投中触达、投后剖析)赋能 AI 营销业务,积淀数据资产、激活数据资产,在保障数据隐衷合规的状况下最大水平开掘数据价值,实现用户、客户、媒体的三方共赢。

本期作者 | 王崇杰,百度商业平台研发部资深研发工程师,长期专一于互联网商业广告营销畛域。关注大数据处理、分布式系统架构、中间件设计、网络数据安全等技术畛域。

招聘信息

百度商业平台研发部次要负责百度商业产品的平台建设,包含广告投放、落地页托管、全域数据洞察等外围业务方向,致力于用平台化的技术服务让客户及生态搭档继续成长,成为客户最为依赖的商业服务平台。

无论你是后端,前端,大数据还是算法,这里有若干职位在等你,欢送投递简历,关注同名公众号百度 Geek 说,输出内推即可,百度商业平台研发部期待你的退出!

浏览原文
| 联邦计算在百度观星盘的实际

———- END ———-

百度 Geek 说

百度官网技术公众号上线啦!

技术干货 · 行业资讯 · 线上沙龙 · 行业大会

招聘信息 · 内推信息 · 技术书籍 · 百度周边

欢送各位同学关注

退出移动版