作者:京东科技隐衷计算产品部 杨博
1. 背景
现在,组织在收集、存储敏感的个人信息以及在外部环境(例如云)中解决、共享个人信息时,越来越关注数据安全。这是恪守隐衷法规的强需要:例如美国加利福尼亚州消费者隐衷法 (CCPA)、欧盟通用数据保护条例 (GDPR) 和世界各地的其余新兴法规,以及中国的《数安法》《个保法》等,都对平安解决敏感数据提出了要求。
加密静态数据不足以防止数据泄露。静态数据加密创立了一个“加密边界”,在该边界之外能够以明文模式拜访数据。因为解决通常须要明文数据,所以这个边界通常存在潜在的数据透露危险。静态数据加密也不反对与其余组织共享数据的计划。为了使数据有用,它们通常必须在应用程序中以明文模式拜访,这大大降低了加密的爱护能力。因而,不同的行业都须要新的隐衷爱护计算方法来满足法律合规要求并为数据共享提供隐衷保障。
狭义的隐衷计算技术是面向隐衷信息全生命周期爱护的计算实践和办法,涵盖信息所有者、信息转发者、信息接收者在信息采集、存储、解决、公布(含替换)、销毁等全生命周期过程的所有计算操作,是实现隐衷爱护前提下数据安全流通的一系列技术。包含但不限于:
•基于数据限度公布的技术:如数据脱敏、去标识化(掩码、克制、泛化、截断、混同、k- 匿名、l- 多样性、t- 贴近等)
•基于数据失真的技术:如随机扰动、差分隐衷、合成数据
•隐衷计算技术:以多方平安计算、联邦学习、可信执行环境三大路线为根底
•相干辅助技术:如区块链、可验证计算、溯源审计技术
2. 前言
随着数字化和大数据分析技术的疾速倒退,对多方数据的需要也越来越多,例如对集体信用风险进行评估,就须要联结多个属性特色进行联结统计分析。集体征信过程中须要采集的信息包含个人身份、住址、职业等根本信息,集体贷款、贷记卡、准贷记卡、担保等信用流动中造成的集体信贷交易记录,以及反映个人信用情况的其余信息,根本涵盖了集体生存的方方面面。各家征信机构如果想要本人推出的信用体系实现精准信用评估,禁受住市场测验,它的信用模型就须要应用更多源、更及时且更有价值的海量数据来继续建模。
然而法规监管和采集老本使数据难以共享,因为征信数据是一种非独占性的非凡资源,具备复制成本低、所有权难确定、流通渠道难管控、应用范畴难限定等特点,稍有不慎,数据极易泄露。如何在保障数据安全和隐衷的条件下实现征信数据的交融?如何保障征信数据的应用和流传是可控的?多方平安计算(Secure Multi- Party Computation,简称 MPC)恰好解决了这个难题,为征信数据的丰沛流动提供了技术可能。
MPC 技术具备爱护隐衷、后果正确、操作可控的劣势,这能够解决征信数据交融的技术窘境。MPC 通过密码学伎俩,能够保障参加征信数据交融的各方自身的数据不泄露;通过密文函数计算,能够保障运算后果与明文计算雷同;它还能够规定征信数据应用的用处和用量,使每一步操作都是可控、受限且可审计的。
3. 多方平安计算 -MPC(Secure Multi-Party Computation)
多方平安计算 (MPC) 是在无可信第三方状况下,多个参与方协同实现计算指标,并保障每个参与者除计算结果外均不能失去其余参加实体的任何输出信息。多方平安计算问题最后起源于 1982 年姚期智院士提出的百万富翁问题,起初通过多年一直的倒退,成为目前密码学的一个重要分支。多方平安计算是基于密码学的算法协定来实现隐衷爱护,常见的多方平安计算协定包含机密共享(Secret Sharing,SS)、混同电路(Garbled Circuit,GC)、同态加密(Homomorphic Encryption,HE)、不经意传输(Oblivious Transfer,OT)等。多方平安计算技术能够获取数据应用价值,却不泄露原始数据内容,爱护隐衷,可实用于多方联结数据分析、数据安全查问(PIR,Private Information Retrieval)、隐衷求交(PSI,rivate Set Intersection)、数据可信替换等利用场景。一系列用于 MPC 的开源库(例如 ABY、EMP-toolkit,FRESCO,JIFF、MP-SPDZ,MPyC, SCALE-MAMBA,和 TinyGable 等) 失去了倒退,进一步推动了 MPC 的利用和部署。
表 1 展现了多方平安计算与联邦学习和可信执行环境的个性比照。多方平安计算是基于密码学的可证平安计算,具备高安全性,但对网络要求高,可利用在银行、政府等高平安要求场景。联邦学习效率高,适宜数据量大的联结机器学习场景,尽管存在梯度泄露问题,但可联合差分隐衷或者多方平安计算来晋升安全性。可信执行环境属于数据加密后集中计算,具备高安全性、高精度等特点,但须要数据加密集中到第三方环境,限度了其应用场景。
在 MPC 中,能够对多方奉献的数据执行计算,而任何一方都无奈看到他们奉献的数据内容。这使得无需受信赖的第三方即可执行平安计算。下图阐明参与者在计算上进行合作,只晓得计算的后果,而不晓得其他人奉献的特定数据。以计算平均工资为例,一种简略的的形式是有一个可信第三方 F 负责收集 A,B,C 每个人的工资收入数据,并计算平均数。然而,显示生存中的可信第三方不总是存在,也并不一定平安,其有可能会透露其收集的隐衷数据。另一种形式就是采纳多方平安计算,在无可信第三方的状况下,来保障各方的工资数据不透露,且能计算出平均工资数。
如下图所示,Allie(A)的工资是 100 美元。在加性秘密共享中,100 美元被分成三个随机生成的局部(或机密份额):例如 20 美元、30 美元和 50 美元。Allie 为本人保留其中一份机密股份(50 美元),并将一份机密份额调配给 Brian(B)(30 美元)和 Caroline(C)(20 美元)。Brian 和 Caroline 也遵循雷同的流程机密分享他们的工资薪水。每个参与者在本地汇总他们的机密份额以计算局部后果;在此示例中,每个局部后果是计算最终答案所需信息的三分之一。而后重新组合局部后果{-30, 480, 150},将先前散发的残缺机密共享集相加求均匀,即可得出 Allie、Brian 和 Caroline 的平均工资是 200 美元。可见,在整个过程中,各方依据本人手中把握的局部机密份额以及最终后果是无奈推导出其余方的原始工资信息的。
4.MPC 的几个重要概念
平安的多方计算须要保障隐衷和正确性。在存在反抗行为的状况下,必须保障平安属性。次要思考两个经典的对手模型:
•半诚恳:半诚恳的对手(又名被动对手)遵循协定标准,但可能会尝试从协定记录中理解更多信息;
•歹意:歹意对手(又称被动对手)能够运行任意攻打策略以试图毁坏协定。
通信模式:MPC 的默认通信办法是通过身份验证的通道,它能够在实践中应用已知的规范技术来实现。在多方设置中,各方也是通过点对点通道连贯的,有时还须要一个播送通道。应用规范的 2 轮回声播送协定能够无效地实现播送信道。
设计 MPC 协定有两种次要办法:
•(1)机密共享方法,使各方针对电路的每个非线性门进行交互,通信带宽低但具备与电路深度成线性关系的交互轮数;
•(2) 乱码电路办法,让各方构建一个加密版本的电路,只容许计算一次,并且交互轮数恒定,但通信带宽大。
4.1 不经意传输(OT – Oblivious Transfer)
不经意传输(OT,oblivious transfer)是一个密码学协定,目前被宽泛的利用于平安多方计算(MPC,Secure Multi-Party Computation)。它由 Rabin[1] 在 1981 年提出。Alice 领有机密 S1,Bob 领有机密 S2。Alice 和 Bob 想要替换机密,要求两方都有可能失去机密并且机密领有方不晓得对方是否失去机密。
Even 等人的提出新的应用公钥明码体制的 1-out-of-2 OT 协定,给出了 OT 公理化的定义和实现。相比于 Rabin 等人提出的一方只有 1 /2的概率取得机密,Even 等人将其进行了改良,即:Alice 领有两个机密 (M0,M1),而 Bob 想要晓得其中一个。在 OT 协定执行实现之后,Bob 取得了其中一个机密,然而不晓得另外一条机密,并且 Alice 也不晓得 Bob 抉择的是 M0,还是 M1。
4.2 基于机密共享 (Secret Sharing) 的 MPC 协定
机密共享的思维是将机密以适当的形式拆分,拆分后的每一个份额由不同的参与者治理,单个参与者无奈复原机密信息,只有若干个参与者一起合作能力复原机密音讯。更重要的是,当其中任何相应范畴内参与者出问题时,机密仍能够残缺复原。是信息安全和数据窃密中的重要伎俩。
目前,具体高效的 MPC 协定次要采纳三种线性机密共享计划(LSSS):加性秘密共享、Shamir 机密共享,以及 replicated 机密共享(又名 CNF 机密共享),其中加性秘密共享次要用于不诚实少数设置中的 MPC 协定,而 Shamir 和 replicated 机密共享用于诚恳少数 MPC 协定。为了实现歹意平安,加性秘密共享须要配置信息论音讯认证码(IT-MACs)。
MPC 中应用的三种 LSSS 都是 (n , t)- 阈值机密共享计划,它使 n 方能够在各方之间共享机密 x,使得 t 方的任何子集都无奈取得对于机密 x 的任何信息,而任何 t + 1 方的子集能够重建机密 x。加性秘密共享只能在 t = n – 1 时进行,而 Shamir/replicated 机密共享容许任何 t < n(咱们常常采纳 t < n/2 代表诚恳少数 MPC)。
4.3 基于乱码电路的常数轮 MPC 协定
它的核心技术是将两方参加的平安计算函数编译成布尔电路的模式,并将真值表加密打乱,从而实现电路的失常输入而又不泄露参加计算的单方公有信息。已知的理论无效的常数轮 MPC 协定是基于乱码电路构建的,这些电路是电路的加密版本,并且只能计算一次。
乱码电路协定分为四个局部。
Step 1: Alice 生成乱码电路
Step 2: Alice 和 Bob 进行通信
Step 3: Bob evaluate 生成的乱码电路
Step 4: 分享后果
4.4 半诚恳协定
半诚恳的参与方,遵循了协定的执行,然而却保留了协定的两头计算状态,实际上,半诚恳的参与方,只保留外部的掷硬币过程(产生随机数的过程)和所有从其余参与方接管到的音讯。特地是,一个半诚恳的参与方会抉择随机数和依据预约的程序进行操作,即依据预约的程序偏心的产生随机数和执行输出与输入。
第一个常数轮平安两方计算(2PC)协定是由姚 [6] 提出的,实现了半诚恳的安全性。Yao 的 2PC 协定采纳乱码电路(GC)和 OT 作为构建块。在多方设置中,常数轮 MPC 必须解决多方合谋坑骗诚恳方的状况。因而,不能只让一方构建乱码电路,而是让各方以分布式的形式独特构建乱码电路。
4.5 歹意平安协定
为了实现歹意平安,须要减少一些检查程序。在不诚实少数 MPC 和诚恳少数 MPC 之间,确保免受歹意对手攻打的底层技术是不同的。例如,不诚实少数设置中的 MPC 须要信息论音讯认证码 IT-MAC 来验证各方共享的值。
平安的两方计算:
对于常数轮 2PC 协定,在 2017 年之前,一种风行的设计歹意平安协定的办法是应用“Cut-and-Choose”(C&C)技术。应用这种技术有两种不同的格调。
•第一个是 Lindell 和 Pinkas 引入的电路级 C&C 办法
•第二种是 Nielsen 和 Orlandi 引入的门级 C&C 办法
目前,用于歹意平安 2PC 的最先进办法是采纳分布式乱码办法,并且显著优于两种 C&C 办法。
平安的多方计算:
不诚实的大多数。 对于容忍非一个歹意毁坏的常数轮循环 MPC 协定,一些钻研采纳 cut-and-choose 的形式或者 BMR 和 SPDZ 的组合形式来构建 MPC 协定。然而,它们的执行效率很低。Goldreich、Micali 和 Wigderson (GMW) 提出了一种通用编译器,用于将半诚恳的 MPC 协定转换为歹意平安的 MPC 协定,以实现雷同的计算工作。然而,这个编译器是非黑盒的,它应用通用的零常识证实来证实每一步计算的正确性,因而效率不高。起初,Ishai、Prabhakaran 和 Sahai (IPS) 提出了一种黑盒编译器,其中具备半诚恳安全性的外部 MPC 协定在 OT- 混合模型中计算电路,并且在诚恳少数设置中具备歹意安全性的内部 MPC 协定用于保障安全性存在歹意对手的状况下的整个 MPC 协定。SPDZ 框架是不诚实少数歹意设置中最先进的协定。原始 SPDZ 协定应用深度 1 同态加密 (HE) 计划(即底层 HE 计划能够反对一次乘法)在预处理阶段生成通过验证的三元组,并且能够在在线阶段疾速评估电路。
诚恳的大多数。 在诚恳少数设置中,能够应用较少的通信和计算基于 replicated 机密共享来构建常数轮 MPC 协定。在歹意设置中,咱们只须要查看乘法门的正确性,因为加法门是在本地计算的并且总是正确的。具体来说,能够应用具备次线性通信的分布式零常识证实来验证乘法门的正确性。
5.MPC 的利用场景
随着政府企业数字化转型深刻浸透,企业累计数据资产增多,均匀数量级达到 3.2PB,海量数据资产一方面意味着存在大量价值期待开掘,另一方面意味着对数据安全防护能力提出了更高的要求。从各个行业来看,通信运营商 领有最丰盛最具价值的数据资产,借助隐衷计算技术,可充沛开释数据因素生产力,实现数据变现。同时为数据因素市场平安倒退提供外围基础设施,赋能千行百业。政府数据 凋谢已成为晋升政务服务的要害。隐衷计算可能在保障数据安全的同时,加强全社会的数据合作,推动数据因素赋能产业降级。金融企业数据 作为一种生产因素,越来越多的业务场景须要多方数据流通和共享,突破“数据孤岛”。衰弱医疗大数据是国家重要的基础性策略资源。通过整合 医疗机构 外部及跨机构的多源异构数据,构建对立的衰弱医疗大数据模型,对于撑持行业治理、医学科研、公共服务都能施展重要作用。特地是医学科研和药械研发,通过多机构间衰弱医疗大数据共享利用,可能加强临床试验、准入、监管等联系性和协同性,放慢新一代基因测序、肿瘤免疫治疗、干细胞与再生医学、生物医学大数据分析等关键技术钻研和转化,推动重大疾病的晚期筛查、个体化医治等精准化利用解决方案和决策支持系统利用。隐衷计算可能兼顾多方合作过程中的安全性与效率性,以下列举了 MPC 在各畛域的一些典型利用场景:
金融畛域:
政务畛域:
医疗、互联网畛域:
6. 结语
政府、企业、组织以及集体越来越关注数据隐衷,通常施行的解决方案已不能提供足够的爱护能力来避免数据偷盗和隐衷泄露。加密静态数据不足以防止数据泄露,不同的行业曾经开始利用新的隐衷爱护技术。而新技术的倒退使平安共享数据和爱护个人隐私成为可能。这些技术能够容许在企业、组织之间共享数据应用价值,在数据湖和云中搜寻加密数据,而不会侵害数据隐衷,同时依然保留数据的剖析品质。
然而,带来安全性的同时,不免对数据分析的性能有所损失,咱们仍须要新的隐衷爱护计算方法来帮忙寻找新的机会并在隐衷、平安和合规之间找到适当的均衡。
7. 参考文献
1. 隐衷计算联盟,《隐衷计算利用钻研报告(2022 年)》,https://mp.weixin.qq.com/s/B-…
2. 隐衷计算联盟,《可信隐衷计算钻研报告(2022 年)》,https://mp.weixin.qq.com/s/It…
3.Shamir, A. (1979) How to Share a Secret. Communications of the ACM, 22, 612-613.
4.Yao.A.C. How to Generate and Exchange Secrets. FOCS 1986: 162-167
5.Gennaro R, Gentry C, Parno B. Non-interactive Verifiable Computing: Outsourcing Computation to Untrusted Workers[M]// Advances in Cryptology – CRYPTO 2010. Springer Berlin Heidelberg, 2010:465-482.
6.Rabin M O . How to Exchange Secrets by Oblivious Transfer[J]. Technical Memo TR-81, 1981.
7.Feng D and Yang K. Concretely efficient secure multi-party computation protocols: survey and more. Security and Safety 2022; 1: 2021001. https://doi.org/10.1051/sands/ 2021001
8. 信通院,《隐衷计算白皮书(2021 年)》