关于hms-core:华为预测服务的构建原理是什么该如何训练模型

预测服务基于华为剖析服务（Analytics Kit）上报的用户行为数据和属性，联合机器学习技术，实现特定指标人群的精准预测。针对预测生成的细分受众群体，发展和优化相干经营动作，如通过A/B测试评估经营流动成果、近程配置特定受众群体的专属套餐等，可无效帮忙产品进步用户留存，减少转化。

应用预测服务前，须要先集成华为剖析服务的SDK，这样零碎才能够顺利开展散失、付费、复购以及自定义预测工作。在详情界面能够查看相干预测人群的高中低概率对应人群数量，及其相应的属性散布（比方详情页的高概率散失人群，示意该人群在将来7日内有较高概率散失，您能够通过相干卡片，察看其行为特点并制订针对性经营打算）。

预测工作和预测详情界面如下所示：

*数据为模仿

预测模型构建流程

在构建预测模型的时候，首先是确定咱们要预测什么，即确立预测的统计口径，而后依据统计口径围绕用户特点寻找对应相干的特色，通过荡涤和采样失去数据集。咱们把数据集二八分失去训练集和验证集，在线下进行一直试验找到最优特色和参数，最初依据相干数据在线上调度训练预测工作。

具体流程图如下所示：

特色、模型抉择和调优

特色摸索

我的项目初期，咱们剖析数据，从属性、行为、需要三方面动手，寻找与业务有可能相干的变量，构建特色表，比方用户近7天的沉闷天数、应用时长等行为数据。

在确定特色之后，下一步就是在试验中进行模型的抉择和调优了，业界罕用的树形模型有xgboost、随机森林、GBDT等，把咱们的数据集用这几种模型进行训练，发现在随机森林上成果较好，其采纳bagging策略进步模型拟合能力和泛化能力。

除了模型参数，也要思考采样比，尤其是对于付费预测这种正负样本迥异的状况（大概1:100），综合思考Accuracy和Recall, 付费训练时将正负样本比例采样至1.5:1, 以进步模型付费用户召回率。

超参加特色确立

训练出了适合的模型，但并非所有特色都是有用的，无用特色除了可能会影响模型成果，也会减慢训练速度。在初期版本中，通过试验确定适合的超参和特色，特色依照特色重要性排序抉择权重较大的，在线上版本中配置对应的超参和特色。

在版本上线之后还须要一直察看数据、剖析数据、补充特色，咱们在后续版本中次要新增了事件特色与趋势特色，补充后总计400+特色。

主动超参搜寻

在挖掘出更多的特色之后，如果都是全量特色训练可能成果未必会好，而且也会十分耗时。同时，可能每个App训练时可能最优的超参和特色并不相同，最好是每个App离开训练且应用本人最优的超参和特色。

为了解决这些问题，咱们减少了主动的超参搜寻，能够在配置好的参数空间里搜寻，找到并保留适合的训练参数。搜寻完之后的最优超参保存在如下构造的hive表中。

以后的整体流程以及内部依赖如下所示：

将来方向

在将来进步模型成果上，咱们也有很多思考，预研的方向大抵如下：

神经网络

以后的特色规模不断扩大（400+），而用户行为的法则又十分复杂，除了应用原有的树形模型，也在尝试利用神经网络弱小的表达能力，联合行为特色训练出更精确的预测模型。

联邦学习

对于各App、各租户数据不可互通的问题，能够通过横向联邦学习联结各个App、各个租户间的模型，在数据不互通的前提下协同训练。

时序特色

不同App的用户每周上报数百个事件（涵盖1000+品种），拜访近百个页面，通过这些时序数据能够结构出不同用户的长短期行为特色，进步不同场景预测的准确率。用户拜访页面的行为有较高的时序特点，能够加工成工夫序列特色，有较高的钻研价值。

特色开掘和加工

对目前的特色集裁减、补充，一方面开掘更多的相干特色比方均匀应用距离、设施属性、装置渠道、国家省市等特色。另一方面基于现有特色通过离散化、归一化、开方、平方、笛卡尔积、多重笛卡尔积等等办法结构更多新特色。

欲了解更多华为预测服务详情，请点击>>

原文链接：https://developer.huawei.com/…
原作者：胡椒

关于hms-core:华为预测服务的构建原理是什么该如何训练模型

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于hms-core:华为预测服务的构建原理是什么该如何训练模型

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复