关于hms-core:华为预测服务的构建原理是什么该如何训练模型

32次阅读

共计 1605 个字符,预计需要花费 5 分钟才能阅读完成。

预测服务基于华为剖析服务(Analytics Kit)上报的用户行为数据和属性,联合机器学习技术,实现特定指标人群的精准预测。针对预测生成的细分受众群体,发展和优化相干经营动作,如通过 A / B 测试评估经营流动成果、近程配置特定受众群体的专属套餐等,可无效帮忙产品进步用户留存,减少转化。

应用预测服务前,须要先集成华为剖析服务的 SDK,这样零碎才能够顺利开展散失、付费、复购以及自定义预测工作。在详情界面能够查看相干预测人群的高中低概率对应人群数量,及其相应的属性散布(比方详情页的高概率散失人群,示意该人群在将来 7 日内有较高概率散失,您能够通过相干卡片,察看其行为特点并制订针对性经营打算)。

预测工作和预测详情界面如下所示:



* 数据为模仿

预测模型构建流程

在构建预测模型的时候,首先是确定咱们要预测什么,即确立预测的统计口径,而后依据统计口径围绕用户特点寻找对应相干的特色,通过荡涤和采样失去数据集。咱们把数据集二八分失去训练集和验证集,在线下进行一直试验找到最优特色和参数,最初依据相干数据在线上调度训练预测工作。

具体流程图如下所示:

特色、模型抉择和调优

特色摸索

我的项目初期,咱们剖析数据,从属性、行为、需要三方面动手,寻找与业务有可能相干的变量,构建特色表,比方用户近 7 天的沉闷天数、应用时长等行为数据。

在确定特色之后,下一步就是在试验中进行模型的抉择和调优了,业界罕用的树形模型有 xgboost、随机森林、GBDT 等,把咱们的数据集用这几种模型进行训练,发现在随机森林上成果较好,其采纳 bagging 策略进步模型拟合能力和泛化能力。

除了模型参数,也要思考采样比,尤其是对于付费预测这种正负样本迥异的状况(大概 1:100),综合思考 Accuracy 和 Recall, 付费训练时将正负样本比例采样至 1.5:1, 以进步模型付费用户召回率。

超参加特色确立

训练出了适合的模型,但并非所有特色都是有用的,无用特色除了可能会影响模型成果,也会减慢训练速度。在初期版本中,通过试验确定适合的超参和特色,特色依照特色重要性排序抉择权重较大的,在线上版本中配置对应的超参和特色。

在版本上线之后还须要一直察看数据、剖析数据、补充特色,咱们在后续版本中次要新增了事件特色与趋势特色,补充后总计 400+ 特色。

主动超参搜寻

在挖掘出更多的特色之后,如果都是全量特色训练可能成果未必会好,而且也会十分耗时。同时,可能每个 App 训练时可能最优的超参和特色并不相同,最好是每个 App 离开训练且应用本人最优的超参和特色。

为了解决这些问题,咱们减少了主动的超参搜寻,能够在配置好的参数空间里搜寻,找到并保留适合的训练参数。搜寻完之后的最优超参保存在如下构造的 hive 表中。

以后的整体流程以及内部依赖如下所示:


将来方向

在将来进步模型成果上,咱们也有很多思考,预研的方向大抵如下:

神经网络

以后的特色规模不断扩大(400+),而用户行为的法则又十分复杂,除了应用原有的树形模型,也在尝试利用神经网络弱小的表达能力,联合行为特色训练出更精确的预测模型。

联邦学习

对于各 App、各租户数据不可互通的问题,能够通过横向联邦学习联结各个 App、各个租户间的模型,在数据不互通的前提下协同训练。

时序特色

不同 App 的用户每周上报数百个事件(涵盖 1000+ 品种),拜访近百个页面,通过这些时序数据能够结构出不同用户的长短期行为特色,进步不同场景预测的准确率。用户拜访页面的行为有较高的时序特点,能够加工成工夫序列特色,有较高的钻研价值。

特色开掘和加工

对目前的特色集裁减、补充,一方面开掘更多的相干特色比方均匀应用距离、设施属性、装置渠道、国家省市等特色。另一方面基于现有特色通过离散化、归一化、开方、平方、笛卡尔积、多重笛卡尔积等等办法结构更多新特色。

欲了解更多华为预测服务详情,请点击 >>

原文链接:https://developer.huawei.com/…
原作者:胡椒

正文完
 0