乐趣区

关于后端:隐私计算综述

一 背景

时光荏苒,一晃从本人开始写公众号到明天,曾经有十个月了,刚刚看了下,这十个月的工夫里,原创文章写了 84 篇,联合本人的从事过的方向,写了五大专栏:隐衷计算、机器学习框架、机器学习算法、高性能计算、数学等方向。相熟我的敌人大抵都晓得我最后是做纯工程的,做搜广推的架构工程,后续转到了算法畛域(机器学习框架与算法都波及),起初因为我的项目须要,临危受命负责了京东的联邦学习,又开始搞隐衷计算,这一路走来能够说是颇为折腾,感觉本人没有几天是放松的工夫,不是在学习就是在学习的路上,没方法,谁让本人爱折腾呢!高 T 的要求是能横向拓展与技术迁徙能力,然而我拓展的畛域根本都是一个全新的畛域,而且我对本人的要求是每个畛域都要做到专家级别,所以能够说是难度很大,不过我集体就是喜爱折腾,对于新的事物很好奇,所以也就一路推过来了,好在过往的问题证实我做的都还不错,也算是没丢人。写公众号的时候,我也想过是专门写一个畛域还是多个畛域,然而感觉本人写一个畛域太节约,所以将本人波及的畛域就都写了写。横向扩大畛域后有个很大的益处就是在波及到大型项目须要多个畛域方向的时候,你会比拟得心应手,就比方联邦学习这种典型的多学科穿插新兴畛域,对于整体的技术选型、技术布局、协定设计、算法设计、分布式架构、性能优化等有很大的帮忙,然而难度也是的确十分大的。

对于很多事件,我都是后知后觉者。其实从事互联网十多年的工夫里,很早就有写点文章和大家分享的念头,然而始终也没有施行,终于在去年十月份,因为某些起因,本人算是开悟了,开始写了起来。到目前为止,隐衷计算方面曾经写了 27 篇文章,根本笼罩了隐衷计算的方方面面,后续还会陆续的更新。回想起本人刚刚做联邦学习的时候,也是懵懵懂懂,很多密码学方面的常识了解的不够粗浅,然而不服输的性情驱动了本人一直的后退,从实践和落地都失去了冲破,在这个过程中,网络中很多的博主写的文章给了我很大的帮忙,助力我走到当初。所以也萌发了本人写公众号的想法,分享下本人在隐衷计算畛域的一些心得,也为整个行业进一些微博之力,如果哪位同学可能从中受害,吾亦深感荣幸,同时鉴于集体能力限度,如果有写的不妥的中央,欢送大家帮忙斧正,共同进步。

回顾刚开始写公众号的时候,因为对文章有肯定的要求,所以最后文章写起来不是那么顺畅,一度也到过进行不上来的地步,也想过放弃,自身工作性质就比较忙,业余时间就比拟少,所以挑战还是十分大的。然而好在本人都保持下来了。正所谓“万事开头难,后续皆坦然”。在陆续写了十几篇文章后,缓缓找到了感觉,就爱上了写文章去分享,也就不感觉是个苦差事了,当初的状态是一周不写一篇,就会感觉浑身不难受,哈哈。

因为我本人比拟轴,所以写文章也比拟轴,每次写之前都是做了短缺的调研,力争把事件讲清楚、说明确,至多从我本人这里来说,我是致力的朝着这个方向去做的。

感激很多读者的激励和反对,也感激很多从业的敌人的信赖,技术是无边界的,心愿大家一起独特推动技术的提高。

文章一旦多了,可能对于如何浏览就是个比拟麻烦的事件,所以明天写了这篇文章,对“隐衷计算”的文章进行导读,目前隐衷计算较为全面,除了 TEE(可信执行环境)之外都是较多的涉猎。作为一个在隐衷计算 - 联邦学习摸爬几年,并且从 0 到 1 实现过京东批发联邦学习平台以及实现业务开门红的从业者,整个专栏的文章强调实践和理论的联合。

二 隐衷计算前景

2.1 政府法律法规

各国政府机构和一些组织机构曾经苏醒的意识到隐衷数据的严重性,从政策法规层面进行了标准,一下列举下最近几年各国对于数据隐衷的一些重大的动作与案例:

  • 「GDPR」是 (The European) General Data Protection Regulation 的缩写,翻译成中文是:「通用数据保护条例」,是欧盟议会和欧盟理事会在 2016 年 4 月通过,在 2018 年 5 月开始强制施行的规定。
  • 欧盟和美国政策制定者强调增强隐衷技术是 2021 年的独特优先事项;
  • 据报道,2021 年 7 月,美国对立法律委员会 (ULC) 投票通过了《对立集体数据保护法》(UPDPA)。UPDPA 是数据隐衷法案范本,旨在为各州提供一个模板,以向本人的立法机构介绍,并最终作为具备约束力的法律。在最终订正后,UPDPA 将于 2022 年 1 月前提交州立法机构。
  • 2021 年 6 月《中华人民共和国数据安全法》(以下称《数据安全法》)历经三审三读,于 2021 年 6 月 10 日经第十三届全国人民代表大会常务委员会第二十九次会议通过。在二审稿根底上删除了 1 条,减少了 3 条,正式颁布的文本共 7 章 55 条,将于 2021 年 9 月 1 日起正式施行。
  • 2021 年 7 月 10 日,国家互联网信息办公室公布《网络安全审查方法(订正草案征求意见稿)》公开征求意见的告诉,第六条中指出“把握超过 100 万用户个人信息的运营者赴国外上市,必须向网络安全审查办公室申报网络安全审查。”由此能够看出,整治隐衷爱护、数据安全问题的信心。
  • 通过三次审议,十三届全国人大常委会第三十次会议表决通过了《中华人民共和国个人信息保护法》,并与 2021 年 11 月 1 日起实施。确立个人信息爱护准则、标准解决流动保障权利、禁止“大数据杀熟”标准自动化决策、严格爱护敏感个人信息、赋予集体充沛权力等。

2.2 行业巨头布局

基于数据隐衷的重要性,各大互联网具体纷纷加大对于隐衷计算的投入,鉴于数据隐衷的法律法规越来越严格状况,将来对于目前互联网的“采 传 存 算”模式提出很大的挑战,数据的跨域传输会存在比拟大的危险。所以为了确保在将来的赛道中怀才不遇,不落于人,并且放弃先发的当先劣势,各个行业巨头都在放松布局隐衷计算。

  • FaceBook 利用隐衷加强技术(PETs)在投放广告时爱护隐衷,利用 MPC、联邦学习、差分隐衷等形式进行相干的全链路保障。摸索全同态加密技术的演进,冀望通过端到端的加密,实现“加密数据的运算替换明文数据的运算,达到同样计算结果“的密保,解决数据隐衷问题。
  • Google 利用本地化差分隐衷爱护技术从 Chrome 浏览器每天采集超过 1400 万用户行为统计数据。Google 推出的一项旨在爱护用户隐衷的颠覆性新技术 FLoC,实质也是一种联邦学习的技术。
  • 2020 年,苹果手机在其 IOS14 里,每个想要应用这些 ID 设施号的利用都须要在用户首次应用时向用户询问受权,用户能够抉择“容许追踪”和“禁止追踪”,如果用户心愿为广告商提供更多数据以取得更精准的广告推送,则须要明确受权容许,进一步爱护用户隐衷。
  • 2021 年 6 月 24 日,在微软正式推出了 Windows 11 操作系统之后,同时公布了必须满足 Windows 的最低硬件要求,即 WIT(Wintel Trust),其中指定了必须蕴含 TPM 可信计算硬件及软件,即不蕴含 TPM 硬件的设施不能应用 Windows 11。
  • 2020 年,京东(广告部门)与字节跳动在营销畛域进行联邦学习单干,胜利实现联邦学习平台的落地,并且基于业务进行联邦建模,单方业务大涨,效果显著。
  • 阿里达摩院公布了 2022 十大科技趋势,全域隐衷计算强势上榜。并且阿里云、阿里妈妈与蚂蚁等都投入重兵布局隐衷计算。
  • 百度研究院公布了 2022 年的十大科技趋势预测,其中提到,「隐衷计算技术备受关注,将成为数据价值开释的突破口和构建信赖的基础设施」

所以从整个政策层面与行业巨头的布局方面,能够清晰的看出隐衷计算行业将来的重要性,将来一片光明。所以对于隐衷计算的前景,大家真的不用过多放心。

三 隐衷计算概述

隐衷计算实质上是 <font color=green > 在爱护数据隐衷的前提下,解决数据流通、数据利用等数据服务问题,在保证数据提供方不泄露原始数据的前提下,对数据进行计算、剖析与建模的一系列信息技术,涵盖数据的产生、采集、存储、计算、利用、销毁等数据流转的全生命周期。</font> 说得更艰深一些,<font color=green > 就是在保障数据安全的前提下,让数据能够自在流通或共享,打消数据孤岛问题,从而开释更大的数据价值,晋升生产效率,推动产业翻新。</font>

3.1 隐衷计算倒退简史

2016 年公布的《隐衷计算钻研领域及发展趋势》正式提出“隐衷计算”一词,并将隐衷计算定义为:“面向隐衷信息全生命周期爱护的计算实践和办法,是隐衷信息的所有权、管理权和使用权拆散时隐衷度量、隐衷透露代价、隐衷爱护与隐衷剖析复杂性的可计算模型与公理化零碎。”

如上图所示,隐衷计算的概念大概在 1995 欧盟提出《数据保护指令》的时候首次提出,并且在之后的日子外面一直的有新的法律法规与行业技术的呈现,基于隐衷组件技术(同态加密、机密分享、混同电路等)根底技术,衍生出多方平安计算、TEE 可信执行环境与联邦学习等隐衷计算赛道,尤其是联邦学习,基于其隐衷与性能的均衡,通过多方联结建模的形式,在多个场景落地利用,并且产生了微小的价值。

3.2 隐衷计算技术路线

隐衷计算的理念包含:<font color=#008000 >”数据可用不可见,数据不动模型动“、“数据可用不可见,数据可控可计量”、“不共享数据,而是共享数据价值”等。</font> 这门技术是门综合性十分强的畛域,波及到泛滥方向,比方密码学、数学、大数据、实时计算、高性能计算、分布式、传统机器学习框架与算法、网络安全体系、计算机体系结构、数学畛域、深度学习框架与算法、隐衷计算根底技术(差分隐衷、机密分享、混同点、不经意传输等。)等等,整体技术非常复杂,是多个技术畛域的集大成者。

能够说是对从业者的综合素质要求极高,如果都把握或者把握多项当然是坏事,然而从笔者的面试状况根本不太可能(然而尽量在保障深度的同时,多点开花,最难的事件才是最优意义的事件),所以务必确保在其中的若干畛域进行精进,其余的畛域做到理解、相熟甚至把握。

<font color=green> 依据目前市场上隐衷计算的次要相干技术个性,整体总结可分为三大方向与五大基座 </font>

  • 三大方向

    • 方向一:平安多方计算
    • 方向二:TEE — 基于硬件的可信执行环境
    • 方向三:联邦学习
  • 五大基座:

    • 基座一:隐衷计算根底组件,蕴含同态加密、机密分享、不经意传输、混同电路等;
    • 基座二:传统的平安机制,蕴含网络安全、主机平安、破解与反破解(横向联邦须要端侧计算的能力,须要平安防护)
    • 基座三:机器学习能力,传统机器学习与深度学习的算法与框架能力
    • 基座四:工程架构,分布式、高并发、大数据、实时计算等
    • 基座五:数学与密码学常识,传统学科知识,例如数学、统计学习、密码学等;

3.3 隐衷计算的人才形成

隐衷计算是新兴的畛域,有很多难题须要解决,只有把握了短缺的常识储备,能力在这个隐衷计算的盛宴中绽开出壮丽的色调。在隐衷计算的畛域中,次要是存在两个流派,一个是密码学流派,一个是机器学习流派。密码学流派依靠于密码学相干常识,以密码学实践为根底,联合工程实际进行摸索,次要利用方向在多方平安计算畛域;机器学习流派次要是依靠于传统和深度机器学习,并且联合密码学相干实践与分布式并行计算计划进行摸索,次要利用方向在联邦学习畛域。

上面别离针对两个流派提些倒退倡议。

  • 机器学习从业者(联邦学习方向):

    • 平台方向:倡议机器学习从业者,把握下密码学的相干常识(基座一、基座二和基座五),并且把握算法的底层原理,能力从底层实现中进行隐衷加密的保障。
    • 算法方向:基于联邦学习平台,进行联邦学习建模,如果仅仅是进行业务建模,其实实质和搜广推等场景的算法工程师区别不大。
  • 密码学人士:

    • 如果不是从联邦学习方向,根本无需把握 ML 技术,能够拓展下基座四的能力。

3.4 隐衷计算的倒退模式

这五大基座技术都在隐衷计算的三大方向中有所应用,是整个隐衷计算体系的基石。然而普通人很难对所有的畛域都有所涉猎,<font color=green > 倡议把握一至两门本人善于的畛域,对于其余的畛域逐渐的相熟与了解,技术都是相通的,一些思路与理念能够复用 </font>。

从下面的形容中,能够看出隐衷计算是一门十分多学科穿插的畛域,真正要做到顶尖是十分艰难的,因为目前的职场模式根本都是专才,很少有通才,专才有专才的益处,通才有通才的好处,通才的意义在于能这个多学科的穿插畛域,在摸索的过程中,基于其更加全面、更加符合实际状况的考量,设计出最可行、最优雅的计划,将隐衷计算的多个部件进行有机的组合,绽开出最大的价值。

  • 通才的意义在于能这个多学科的穿插畛域,在摸索的过程中,基于其更加全面、更加符合实际状况的考量,设计出最可行、最优雅的计划,将隐衷计算的多个部件进行有机的组合,绽开出最大的价值,难点在于如何将各个领域都做到精通。
  • 专才的益处在于在无限的工夫内,对于特定的畛域进行加深增强,能够在一点进行冲破。难点在于须要跨畛域的时候,会比拟麻烦,无奈很好的设计整体的计划,这个时候须要多个跨畛域的人才进行个体智慧了。

然而我强烈拥护通才不专的说法,通才也能够每个畛域都很深刻,这个取决于集体,也取决于工夫 + 怠惰。因为我在互联网行业曾经十多年了,跨过多个畛域,所以我对本人的要求是做各个领域专才的汇合,也就是通才。

正所谓下最笨的功夫,能够能力走的更加持重,所以倡议大家都不要给本人设限,在精通一门的同时,其余的逐步进行兼顾,尤其是公司外面的隐衷计算的领导者,更须要从常识的深度和广度都进行增强。进而设计出更加可行、更加优雅、更加高效的计划,推动隐衷计算技术的倒退。

<font color=green > 其实无论走什么方向,都要做精,本着享乐的精力,好高鹜远,一步一步松软的走过每个山头,到最初回首一望,所过之路,皆是坦途!与诸君共勉!</font>

五 公众号文章导读

公众号外面曾经积攒了不少的文章,并且依据隐衷计算的 五大基座、三大方向 进行分类论述,上面对公众号文章进行导航总结,不便大家浏览,独特推动隐衷计算行业的倒退,为隐衷计算倒退略尽绵薄之力。

  • 基座一:隐衷计算根底组件

    • 隐衷计算根底组件系列 - 同态加密
    • 隐衷计算加密技术根底系列 -Diffie–Hellman key exchange
    • 平安多方计算 - 机密分享
    • 隐衷计算根底组件系列 - 混同电路
    • 隐衷计算根底组件系列 - 不经意传输
    • 隐衷计算之差分隐衷 -Laplace 机制
  • 基座二:传统的平安机制

    • 隐衷计算加密技术根底系列(下)对称与非对称加密的利用场景
  • 基座三:机器学习能力

    • 机器学习算法

      • 文言机器学习系列之(一)根底概念
      • 文言机器学习之(二)感知机
      • 文言机器学习之(三)线性回归
      • 文言机器学习之(四)逻辑斯蒂回归
      • 文言机器学习之(五)梯度降落法
      • 文言机器学习 - 最优化办法 - 牛顿法
      • 文言机器学习 - 卷积神经网络 CNN
      • 文言机器学习 - 深度神经网络 RNN
      • 文言机器学习 - 长短期记忆网络 LSTM
      • 文言机器学习 - 循环神经网络从 RNN、LSTM 到 GRU
      • 文言机器学习 -Encoder-Decoder 框架
      • 文言机器学习 -Attention
      • 文言机器学习 -Self Attention
      • 文言机器学习 -Transformer
      • 图神经网络概述
    • 机器学习框架

      • 深度学习框架 - 超大模型的分布式训练的摸索(一)
      • 深度学习框架 Tensorflow 系列之(一)开发环境部署
      • 深度学习框架 TensorFlow 系列 -OP 开发
      • 深度学习框架 TensorFlow 系列 - 根底概念
      • 深度学习框架 Tensorflow 系列之 - 数据流图
      • 深度学习框架 TensorFlow 系列之(三)根底概念之框架载体之数据载体张量 Tensor
      • 深度学习框架之系列(三)张量相干操作
      • 深度学习框架 TensorFlow 系列 - 单机程序编程框架
      • 深度学习框架 TensorFlow 系列之(五)优化器(一)
    • 深度学习框架 TensorFlow 系列之(五)优化器 2

      • 深度学习框架 TensorFlow 系列之(五)优化器 3
      • 深度学习利器 -GPU
  • 基座四:工程架构

    • 高性能计算 - 无锁编程
    • Linux 建设 TCP 连贯的超时工夫剖析
    • 高并发服务中的 TCP 异样排查
    • 性能优化 - 应用 objdump 剖析 core 堆栈性能优化 - 应用 objdump 剖析 core 堆栈
    • 性能优化 - 原子操作的实现原理以及 CAS 剖析
  • 基座五:数学与密码学

    • 隐衷计算加密技术根底系列(上)
    • 隐衷计算加密技术根底系列(中)-RSA 非对称加密
  • 平安多方计算

    • 联邦学习 - 样本对齐之隐衷 PSI 算法 – 联邦学习与平安多方计算外面都波及到隐衷汇合求交 PSI
    • 平安多方计算 - 匿踪查问
  • 联邦学习

    • 纵向联邦学习

      • 联邦学习 - 样本对齐之隐衷 PSI 算法 – 联邦学习与平安多方计算外面都波及到隐衷汇合求交 PSI
      • 联邦学习 - 线性回归
      • 联邦学习 - 平安树模型 SecureBoost 系列之(一)Desicion Tree
      • 联邦学习 - 平安树模型 SecureBoost 系列之(二)- 集成学习
      • 联邦学习 - 平安树模型 SecureBoost 系列之(三)XGBoost
      • 联邦学习 - 平安树模型 SecureBoost 系列之(四)终章
      • 纵向联邦学习 - 神经网络模型的隐衷爱护技术
    • 横向联邦学习

      • 横向联邦学习 - 模型更新办法
      • 横向联邦学习 - 梯度平安聚合
      • 横向联邦学习 - 梯度平安聚合(二)

六 番外篇

集体介绍:杜宝坤,隐衷计算行业从业者,从 0 到 1 率领团队构建了京东的联邦学习解决方案 9N-FL,同时主导了联邦学习框架与联邦开门红业务。
框架层面:实现了电商营销畛域反对超大规模的工业化联邦学习解决方案,反对超大规模样本 PSI 隐衷对齐、平安的树模型与神经网络模型等泛滥模型反对。
业务层面:实现了业务侧的开门红业务落地,创始了新的业务增长点,产生了显著的业务经济效益。
集体比拟喜爱学习新货色,乐于钻研技术。基于从全链路思考与决策技术布局的考量,钻研的畛域比拟多,从工程架构、大数据到机器学习算法与算法框架均有波及。欢送喜爱技术的同学和我交换,邮箱:baokun06@163.com

七 公众号导读

本人撰写博客曾经很长一段时间了,因为集体涉猎的技术畛域比拟多,所以对高并发与高性能、分布式、传统机器学习算法与框架、深度学习算法与框架、明码平安、隐衷计算、联邦学习、大数据等都有波及。主导过多个大我的项目包含批发的联邦学习,社区做过屡次分享,另外本人保持写原创博客,多篇文章有过万的浏览。公众号 秃顶的码农 大家能够依照话题进行间断浏览,外面的章节我都做过依照学习路线的排序,话题就是公众号外面上面的标红的这个,大家点击去就可以看本话题下的多篇文章了,比方下图(话题分为:一、隐衷计算 二、联邦学习 三、机器学习框架 四、机器学习算法 五、高性能计算 六、广告算法 七、程序人生),知乎号同理关注专利即可。

<font color=red> 所有有为法,如梦幻泡影,如露亦如电,应作如是观。</font>

本文由 mdnice 多平台公布

退出移动版