一、我的项目背景
在团体数据挖掘我的项目下,用户画像工程须要开发一些根底标签,如年龄、性别、婚姻状况、资产状况等标签。这些标签不能应用团体下的各个数据源来简略的解决后,失去后果作为最终评估后果,因为不同数据源的数据品质参差不齐,且各个数据源失去的后果置信度状况也不一样。
因而咱们须要应用决策树 +XGBoost 等模型来综合预测用户标签。比方以下几种标签的决策树如图所示:
年龄段:
性别:
婚姻状况:
二、模型形象
一开始,我筹备参照机器学习的 PMML 来实现决策树的形象性能,然而看了一整天的 PMML 官网文档和一大堆 PMML 相干的文章后,我发现这种计划对我来实现起来太过简单。机器学习的 PMML 文件大多都是模型代码主动生成的,不适宜咱们这种场景(咱们是要本人实现把决策树转换为 PMML 文件)。如果想要咱们来写生成 PMML 文件的代码,那么须要精通 PMML 的各类标签定义,以及在 spark 环境下怎么加载该文件,以及如何保障加载的 Model 是咱们想要的逻辑,这里实现起来,后续工作可能很简单。
没方法,我只能思考在咱们本人的需要背景下,怎么本人写代码来实现决策树模型的形象性能。
它至多包含以下几个难点:
一、如何形象决策树
二、如何设计相似 PMML 的配置文件
三、