乐趣区

关于数据库:基于-OpenMLDB-的联邦学习方案被国际数据挖掘学术会议-CIKM-录取

本周,数据挖掘畛域的国内顶级学术会议 CIKM 2022 (https://www.cikm2022.org/) 正在美国亚特兰大举办。由第四范式和新加坡国立大学单干的论文 “A System for Time Series Feature Extraction in Federated Learning” 被 CIKM 录取。

该论文次要形容了基于 OpenMLDB 的时序数据特色抽取的语义,扩大到联邦学习的创新性钻研工作。该计划进一步和风行的开源联邦学习框架 FATE 进行了无缝整合,进行了开源并且能够间接运行。通过试验验证,应用该计划的 FATE 利用模型品质(AUC)晋升 3%,召回率晋升 10%;在广告投放业务中,带来 10% 的投放增效。
论文原文:https://dl.acm.org/doi/pdf/10…(点击“浏览原文”,即可跳转查看)
演讲视频:https://dl.acm.org/doi/10.114… 代码 repo:https://github.com/4paradigm/…(蕴含了源代码以及和 FATE 整合的可运行框架)

随着严格的数据隐衷平安要求的出台,各个企业之间数据不能随便地交换替换,一个个数据孤岛日渐造成。联邦学习,一种在爱护数据隐衷的前提下进行联结机器学习的办法,应运而生。联邦学习在如反欺诈、风控、举荐等场景下有宽泛的利用前景。此类场景中,基于时序数据的特色工程是最终能达成业务成果的要害一环。然而,在目前风行的联邦学习框架下,时序数据的特色工程并没有被很好的反对。因而,第四范式基于 OpenMLDB 时序特色工程的语义,在联邦学习的场景下进行扩大,赋能严格数据隐衷要求下联邦时序特色的构建能力。

第四范式的计划基于两大工业级产品:OpenMLDB 和 FATE,打造整合了联邦时序特色生成的联邦学习全流程。其中,主动时序特色生成和筛选的算法基于 OpenMLDB,性能实现上无缝连贯 FATE 联邦学习全流程的各个模块。如下图一显示了基于 OpenMLDB 的时序特色计划和 FATE 整合的流程,在样本对齐当前,额定减少了联邦时序特色抽取的步骤,在原始特色上增加了时序特色,再把所有特色一起放入模型训练。

图一:联邦时序特色抽取模块(TSFE)和 FATE 框架的全流程整合时序数据的特色工程个别包含工夫戳衍生和时序值衍生两类:工夫戳衍生类特色工程:只须要应用到工夫戳单列特色来生成,较为简单。例如,是否为晚上,间隔周末的天数等。时序值衍生类特色工程:例如滑动窗口统计,在隐衷数据保护的要求下,在联邦学习框架下的实现具备技术挑战性。以银行交易欺诈判断为例,银行在判断交易是否为欺诈时,能够应用用户过来一周的电信公司通话记录信息来作为一项参考。这种场景下,用来生成时序特色的起始工夫戳记录存储在银行数据库中,而用来生成特色的数据,如通话时长、通话次数等,存储在电信公司的数据库中。在第四范式的计划中,提供了一种基于同态加密和随机函数加密机制实现隐衷爱护的通信协议,在加密分享要害信息的同时,保障原始数据不出库,确保安全高效,使得参加建模的单方在不披露原始数据的前提下,分享加密的工夫窗口信息,合作方能够利用该窗口信息在本地生成发起方所申请的时序特色,用于之后的联邦时序建模。该计划同时提供特征选择性能,基于特色的 IV 值筛选新特色,进一步晋升联邦建模效力。下图二显示了该协定的具体工作步骤,更多细节能够参考论文原文。

图二:联邦时序特色生成具体步骤举例将来,第四范式以及 OpenMLDB 社区也将持续推动在基于隐衷计算方面的钻研和开发工作,也欢送感兴趣的社区小伙伴退出咱们。< PAST · 往期举荐 >

OpenMLDB 实习生招募继续进行中

退出移动版