关于数据挖掘:看火山引擎DataLeap如何做好电商治理二案例分析与解决方案

54次阅读

共计 1129 个字符，预计需要花费 3 分钟才能阅读完成。

接上篇，以短视频优质我的项目为例，火山引擎 DataLeap 平台治理团队会去对每天公布的这种挂购物车车短视频打上标签，辨认这些短视频它是优质的还是低质的，以及具体起因。一个视频通过这个模型辨认之后，会给到奖惩核心去做相应的奖惩策略。简略来说，如果它是优质视频，会去做这种流量的搀扶，是低质，间接通过奖惩核心去做这种流量的打压。

算法开发阶段，数据预处理产出训练数据集
以前因为模型的测试集量级很大，解决起来会很慢，平台治理团队当初应用火山引擎 DataLeap 的 Notebook 工作，做这种数据的一些预处理。在预处理完这些数据之后会把数据放到 Hive 表，或者是放到 HDFS 下面去，这些数据在 HDFS 上能够设置短暂保留。这就很好的满足了在理论利用场景中须要收集很长一段数据的需要，不用受存储的有效期只有 7 天工夫的限度。

（图：DataLeap 数据开发平台）

之后平台治理团队再离线地去解决这些数据，产出训练汇合，比方把在 HDFS 上存储的门路下载到本人的的开发机外面，就能够去进行模型训练了。因为 Notebook 工作能够反对工作的每天运行，不用人工去搭建 Notebook 环境去训练数据，这样能够大大节俭人力老本，晋升数据处理和统计效率。

算法上线，验证模型成果
训练好了模型，须要去评估它的成果好不好，这个时候咱们通过火山引擎 DataLeap 把线上的 Kafka 数据写到 Hive 外面，再离线地剖析对应的落的 Hive 表来看模型的成果是怎么样的，发现有哪些是漏放，有哪些是误伤等等不同的模型平台治理团队看的指标不一样，通常的话次要看精确和召回，还会看一些比如说 AUC 或者是 ACC 这样的一些数据，总的来说不同的模型关注的指标是不太一样的。

与风神（Aeolus）联合，进行监控看板的搭建
对于如何做好监控，能够与 Aeolus 联合搭建监控看板，具体来看通过火山引擎 DataLeap hsql 任务分析这种落好的 Hive 表，而后产出统计指标（比方召回率漏放率审出率驳回率），把指标做成数据集，在 Aeolus 下面去建设这样的一些看板。这种看板每天也可能例行的给到监控人员一些后果，对于上线之后的数据监控是有极大帮忙的。同时也会对 badcase，进行深刻的剖析，进而优化算法模型。

平台治理成果
据理解，火山引擎 DataLeap 平台治理团队去年全年累计开掘优质短视频超 147 万条，助力超 26 万名电商作者均匀流量增长 56%；累计处罚违规低质短视频超 3280 万条、违规低质直播超 1500 万场。整体内容品质有显著改观，消费者好感度回升 7.2%。
此外，平台还继续强化直播内容真实可信，通过构建商品信息清晰、真实可信的直播生态，标准达人带货行为。882 名电商作者因在直播中虚伪营销受罚，消费者举荐度晋升 11.85%。

正文完