腾讯数据安全专家谈联邦学习开源项目FATE通往隐私保护理想未来的桥梁

jiezi

5 年前

数据孤岛、数据隐私以及数据安全，是目前人工智能和云计算在大规模产业化应用过程中绕不开的“三座大山”。

“联邦学习”作为新一代的人工智能算法，能在数据不出本地的情况下，实现共同建模，提升 AI 模型的效果，从而保证数据隐私安全，突破数据孤岛和小数据的限制，这无疑成为了跨越“三座大山”的途径之一。因此，作为联邦学习全球首个工业级开源项目，FATE 也受到了各方关注，开发者们对加入社区建设纷纷表示期待。（FATE 开源社区地址：https://github.com/FederatedA…）

而在贡献者激励机制推出以后，FATE 开源社区迎来了首位一级贡献者——来自腾讯云的刘洋。联邦学习怎样赋能行业数据安全？隐私保护从业者怎样评价 FATE？刘洋博士在采访中表达了自己的看法。

数据运算提效 70% 加速企业应用落地

博士毕业于澳大利亚国立大学的刘洋，同时是腾讯云的高级研究员，负责腾讯神盾沙箱的隐私保护算法部分。刘洋表示，因自身从业领域的缘故，从年初就开始密切关注着“联邦学习”。

也因此，FATE 进入了其视野，受到了刘洋及腾讯云团队的重点关注。在对 FATE 进行深入了解后，刘洋认为腾讯神盾沙箱打造的隐私安全 + 分布式学习的理念，与 FATE 要解决的“数据安全”“数据隐私”“数据合规”三大问题不谋而合，并逐步开始使用 FATE 满足神盾沙箱的功能需求。

刘洋表示，经过长期接触后，对 FATE 的逻辑回归和 XGBoost 算法流十分认同，因此也开始加入 FATE 开源社区建设，提出了优化建议——利用对称的仿射密码替代 Paillier 密码，将训练时间提升 70% 以上，从而给同态运算“减负”。未来合作企业在应用优化过后的 FATE 版本时，可以有效降低数据运算的时间成本，提升企业在 AI 时代的技术竞争能力。

行业负重前行数据安全迫在眉睫

AI 应用场景中，将多方数据中心式合并处理的传统合作方式，存在着严重的隐私泄露问题，这一症结甚至成为了企业大规模应用 AI 的关键阻碍。

在刘洋看来，破局关键仍在于数据安全问题的解决，即数据 privacy 和 utility 的折衷问题。具体来说，数据要想安全的从孤岛分享出去，必须经历某些“蒙面”操作：通过密码学工具将有效数据转换成乱码，privacy 保住了，但密钥在谁手中，极大的影响数据的 utility；用噪声混淆原始数据也可以，例如差分隐私，噪声越大，越保证 privacy，但使用者拿到数据发挥的 utility 越低。怎样在 privacy 和 utility 中寻求一条折衷之路，是数据安全流通的关键问题之一。

未来理想的状态是，任何数据使用者能够在自由流动和聚合的分布式数据之上，进行高效的数据挖掘操作，而丝毫感觉不到隐私保护的羁绊。在 MPC（Multi-party Computation，多方安全计算）领域，目前行业还停留在混淆电路、可信计算等解决方案，虽然支持的计算任务具有一般性，但需要额外的硬件支持，学习成本较高，阻碍了规模化应用的同时，也不利于安全数据联盟的形成。

而联邦学习在具有普适性的联邦框架中，针对每一种或每一类机器学习算法进行订制化的隐私保护改造，使它们的使用无异于经典的中心式机器学习模型。相比之下，联邦学习在稳住成本的基础上，确保了易用性。刘洋称，对于企业而言，联邦学习提供的解决方案更具吸引力；对于行业而言，更便捷的操作将吸引更多开发人员的投入，从而推进安全数据联盟的构建。

FATE 生态×腾讯云数据安全未来可期

今年 5 月初起，FATE 和腾讯云神盾沙箱就开始进行业务往来和技术交流，目前神盾沙箱的核心计算模块由 FATE 提供。在搭建平台过程中，双方紧密合作。刘洋在采访中表示，团队在使用 FATE 框架、算法时，会将有效建议贡献到 FATE 开源项目中，参与开源社区建设。

这种带有“互助互惠，开源共筑”特色的合作形式，在促进了神盾沙箱的产品打磨和 FATE 项目的完善的同时，也给其他技术项目或团队提供了很好的样板示范——以开放的姿态拥抱新的技术，不仅于自身有利，也将助推整个行业的发展。

在刘洋的设想中，未来两者可以在提升技术影响力和业务落地等方面进行更深层次的协作，例如合作发表重要论文、提交专利和联手接手内外部实际业务，形成“学术”“业界”两开花的美好局面。

随着越来越多贡献者加入 FATE 理论标准与行业应用的建设，FATE 势必会迎来更广阔的前景。对此，刘洋表示，神盾沙箱和 FATE 的联手将会加速数据安全的扎根与生长，在数据孤岛之上构建起安全数据联盟的未来可期。