关于scala:Scala实现Spark环境下的决策树模型工程

作者：

在

一、我的项目背景

在团体数据挖掘我的项目下，用户画像工程须要开发一些根底标签，如年龄、性别、婚姻状况、资产状况等标签。这些标签不能应用团体下的各个数据源来简略的解决后，失去后果作为最终评估后果，因为不同数据源的数据品质参差不齐，且各个数据源失去的后果置信度状况也不一样。
因而咱们须要应用决策树+XGBoost等模型来综合预测用户标签。比方以下几种标签的决策树如图所示：

年龄段：

性别：

婚姻状况：

二、模型形象

一开始，我筹备参照机器学习的PMML来实现决策树的形象性能，然而看了一整天的PMML官网文档和一大堆PMML相干的文章后，我发现这种计划对我来实现起来太过简单。机器学习的PMML文件大多都是模型代码主动生成的，不适宜咱们这种场景（咱们是要本人实现把决策树转换为PMML文件）。如果想要咱们来写生成PMML文件的代码，那么须要精通PMML的各类标签定义，以及在spark环境下怎么加载该文件，以及如何保障加载的Model是咱们想要的逻辑，这里实现起来，后续工作可能很简单。
没方法，我只能思考在咱们本人的需要背景下，怎么本人写代码来实现决策树模型的形象性能。
它至多包含以下几个难点：

一、如何形象决策树
二、如何设计相似PMML的配置文件
三、

三、性能实现

四、优化计算

五、我的项目总结

评论

发表回复取消回复

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理。

更多文章