关于人工智能:精准营销难Sophon-Base手把手教你从建模到上架

Sophon 是一款蕴含数据分析和机器学习建模的一系列智能剖析软件。基于本软件，您能够疾速实现从特色工程、模型训练到模型上线的机器学习全生命周期开发工作。为了帮忙您疾速入门，本文将以精准市场营销模型利用试验为例来展现 Sophon Base 的应用过程。

对于 Sophon Base

Sophon 蕴含 3 个次要模块: Sophon Base、Sophon Edge、Sophon KG。其中 Sophon Base 数据迷信根底平台具备残缺的数据摸索、多数据源接入、试验调度、智能剖析、用户资产以及平台治理等性能；为用户提供残缺的模型上线闭环，全流程图形化帮忙用户更加便捷地对线上服务进行治理，实现模型价值。

试验背景

某家企业心愿开辟新用户进行精准的市场营销，但企业只晓得市场营销计划对过来的用户是否产生成果。用人工甄别的形式筛选现有用户将耗费大量的人力资源。

通过建设精准市场营销模型，让企业能够使用过往用户数据来预测营销计划是否会对现有用户产生成果，从而锁定潜在用户，进步邮件、短信营销的转化率，缩小企业营销行为的老本。

在本试验中，咱们将以精准市场营销为案例背景，展现如何应用 Sophon Base 来实现精准市场营销模型的训练、测试、预测、上线与理论利用。

数据集

Sophon Base 平台在数据样例中为该试验提供了两个样例数据集，别离为蕴含过来用户信息的数据集 pastcompaigndata 与蕴含当初用户信息的数据集 newcompaigndata。

在试验开始前，先浏览数据集 pastcompaigndata 中的字段以及取值：

数据集 pastcompaigndata 字段

在本试验中，“response”以外的字段将作为模型的输出，“response”字段将作为模型的输入。

数据集 newcompaigndata 蕴含除了“response”以外的所有字段。因而，您须要应用数据集 pastcompaigndata 训练市场营销模型并测试。训练出的模型将读取 newcompaigndata 中的用户信息，并预测营销计划是否会对这些用户产生成果。

浏览完数据集的字段后，您曾经晓得该试验近似监督学习中的二分类问题。本试验将抉择随机森林算法来训练模型。因为该数据集字段较多，这也意味着它具备较高的维度；字段的取值较少，“gender”、“area”、“email”、“mobile”等字符串字段只有两种取值。而随机森林计算开销小，性能弱小，善于解决高维度的数据；同时字符串字段取值划分较少，随机森林产生的属性权值具备可信度。在训练完结后，随机森林可能给出哪些字段比拟重要。

开始试验

在创立我的项目之前，本文默认您的 sophon 平台及各种配置文件曾经胜利装置，失常运行，并且您已胜利注册 sophon 用户。

进入我的项目首页，点击“+ 新建我的项目”以新建一个我的项目：

新建我的项目

在新建我的项目对话框中配置我的项目参数：

参数配置实现后，点击“确认”以创立我的项目。

在我的项目首页，点击创立好的我的项目，进入我的项目详情页面。该页面蕴含试验、数据集、SQL 编辑、特色、代码、Notebook、模型、运行历史、API 模型服务、工作流等数据。

点击左侧的试验，点击试验，并新建空白试验：

点击试验，并新建空白试验

在新建空白试验页面，填写试验的名称与保留地位，点击确定以创立试验。试验创立后会主动进入该试验界面。

数据导入

在左侧算子抉择中点击“数据集”>“数据样例”>pastcompaigndata，将 pastcompaigndata 拖动至右侧工作区：

拖动 pastcompaigndata

选中 pastcompaigndata，右键菜单 >“查看数据”，能够预览数据集的内容，看到后果如下：

预览 pastcompaigndata 数据

数据摸索

接下来进行数据摸索操作。点击左侧工具栏的数据集按钮进入数据集界面：

数据集按钮

在数据集界面，点击上方的样例按钮，在下方查找到 pastcompaigndata 数据集样例：

数据集界面

点击该样例后能够进入样例的详情页面，点击上方的图形摸索按钮，切换至图形摸索页面进行数据摸索。

拖动左侧数据列至右侧维度、指标、穿插分类等操作框中来进行绘图。点击上方的统计分析按钮，切换至统计分析页面进行统计分析；勾选数据列，点击“剖析”，即可失去数据集的整体统计分析后果。

数据预处理

咱们能够通过搭建算子来疾速实现数据的预处理工作。

在左侧抉择“预处理”>“字符串”>“字符串索引”算子并拖动至工作区，将数据源的 output 连贯至“字符串索引”算子的 input。

在左侧抉择“预处理”>“元信息”>“设置角色”算子并拖动至工作区，将“字符串索引”算子右侧的 output 连贯至“设置角色”算子的 input。

在左侧抉择“预处理”>“其余”>“样本切分”算子并拖动至工作区，将“设置角色”算子的 output 连贯至“样本切分”算子的 input。

您也能够在搜寻框中间接输出名称搜寻算子，对应的算子会被检索进去。

算子连贯实现后如图所示：

预处理算子连贯

点击选中“字符串索引”算子，在右侧进行参数设置：

“字符串索引”算子 > 算子参数

先点击右侧的算子参数，并设置参数：

之后点击左侧的 IO 参数，而后点击属性子集右侧的按钮，进入抉择属性页面：

“字符串索引”算子 >IO 参数设置

在抉择属性页面的左侧勾选“gender”、“area”、“email”、“mobile”、“response”这五个属性。而后点击右侧的向右按钮来选中这五个属性，点击确定来实现抉择：

“字符串索引”算子 >IO 参数设置 > 属性子集

“是否排除 ID 列”放弃默认值不勾选。至此，“字符串索引”算子的参数设置实现。

点击选中“设置角色”算子，在右侧设置参数：

点击额定的角色设置右侧的按钮，进入额定的角色设置页面：

“设置角色”算子 > 额定的角色设置

在额定的角色设置页面里，先抉择列名为“response”，指标角色为“label”。而后勾选该列。最初点击确定实现设置。至此，设置角色算子的参数设置实现。

点击选中“样本切分”算子，在右侧设置参数。点击切分比例右侧的按钮进入切分比例页面，如图示将切分比例设置为 7：3，70% 的数据作为训练集，30% 的数据作为测试集：

“样本切分”算子 > 切分比例

勾选比例后点击确定来实现设置。不勾选“分层样本划分”，随机种子设置为 0。至此，数据预处理实现。

模型训练

在左侧抉择“机器学习”>“分类”>“随机森林”算子并拖动至工作区，将“样本切分”算子的 partition1 连贯至“随机森林”算子的 train set。

在左侧抉择“导入导出”>“模型写入”算子并拖动至工作区，将“随机森林”算子的 model 连贯至“模型写入”算子的 model。

算子连贯实现后如图所示：

模型算子连贯

点击选中“随机森林”算子，在右侧设置参数。

算子参数：

值得注意的是，随机森林中的树个别会设置的比拟深，以尽可能地升高偏差。本文中“随机森林”算子的参数设置仅供参考，您能够对算法模型设置不同参数调试来失去多个训练后果，依据训练后果来构建性能最佳的模型。

点击选中“模型写入”算子，在右侧设置参数。如果您还没有导出过模型，您能够在右侧勾选“创立新模型文件”并为你的新模型命名。如果您曾经导出过模型，您能够不勾选“创立新模型文件”并抉择一个已有的模型，试验执行后，导出的模型会主动笼罩抉择的模型。

通过“模型写入”算子，咱们能够导出并保留训练完的模型。

性能验证

咱们须要对训练完的模型进行验证与评估。

在左侧抉择“验证与评估”>“利用模型”算子并拖动至工作区，将“随机森林”算子的 model 连贯至“利用模型”算子右侧的 model。同时将“样本切分”算子的 partition2 连贯至“利用模型”算子左侧的 input。

在左侧抉择“验证与评估”>“性能（二分类）”算子并拖动至工作区，将“利用模型”算子的 output 连贯至“性能（二分类）”算子的 input。

算子连贯实现后如图所示：

性能验证算子连贯

点击选中“性能（二分类）”算子，在右侧设置参数，此处您能够依据本人的理论须要抉择评估规范：

将“性能（二分类）”算子的 output 连贯至 result，点击上方的执行按钮，输入训练模型的测试后果，对失去的测试后果进行剖析：

混同矩阵

测试集中有 119 个“yes”样本与 157 个“no”样本。为不便了解，别离称它们为真样本与假样本。

如果一个真样本被预测为真，咱们称其为真阳性（TP）；一个真样本被预测为假，咱们称其为假阴性（FN）；以此类推，一个假样本被预测为真，咱们称其为假阳性（FP）；一个假样本被预测为假，咱们称其为真阴性（TN）。

您能够通过召回率和精准率来初步评估模型的好坏。召回率体现了所有正样本中被辨认出的正样本的比例，精准率体现了所有预测为正的样本中预测正确的比例。召回率与精准率能够由以上四个数字得出：召回率 =TP / (TP + FN)、精准率 = TP / (TP + FP)。

依据混同矩阵中的信息，您能够晓得：有 115 个真阳性，10 个假阳性，4 个假阴性，147 个真阴性，召回率为 0.966、精准率为 0.920。能够看出该模型无论是召回率还是精准率都较高。

您也能够应用 ROC 曲线来评估模型的性能。ROC 曲线能够反映模型在选取不同阈值时其命中率与误判率的趋势走向。

ROC 曲线

其中，命中率即真正类率(true postive rate TPR），等同于召回率。TPR 越大，预测正类中预测正确的比例越高；误判率即负正类率(false postive rate FPR）。FPR 越小，误判率越低，预测正类中理论负类越小。在 ROC 曲线中，FPR 作为横轴而 TPR 作为纵轴。

在 ROC 曲线图中的四个顶点有其非凡的含意。

第一个点，(0,1)，即 FPR=0，TPR=1，这是最完满的诊断，它将所有样本都正确分类。
第二个点，(1,0)，即 FPR=1，TPR=0，最蹩脚的分类器，它胜利避开了所有正确答案。
第三个点，(0,0)，即 FPR=TPR=0，即 FP=TP=0，所有样本均被预测为假样本。
第四个点，(1,1)，所有的样本均被预测为真样本。

一个好的分类模型的 ROC 曲线应尽可能凑近点 (0,1)，为了准确地评估分类器的好坏，您能够参考 AUC 值。AUC 值为 ROC 曲线下的面积，该值越大意味着以后模型准确率越高。从上图能够看到，黄色的线即 ROC 曲线。它与点(0,1) 之间的间隔十分近；AUC 值为 0.9922，靠近 1，能够看出训练出的模型成果很好。

在执行试验后，您训练实现的模型曾经被导出，能够在模型界面查看该模型的详细信息。

模型参数重要性

在详细信息中，咱们能够看到该模型给出的参数重要性。能够看到在用户信息中，用户应用邮箱的评级与用户应用移动电话的频率都对用户的营销后果有着较大的影响；而用户 6 个月内的销售次数与用户总销售次数对后果的影响较小。

应用模型来预测后果

您曾经失去了训练实现的模型，当初能够用它来预测营销计划对当初的用户是否产生成果。

新建一个新试验。点击左侧试验按钮进入试验页面，点击试验，新建空白试验。进入试验后在左侧是算子抉择中点击数据集，点击数据样例，抉择 newcompaigndata。此局部与上一个试验操作基本相同，不再反复。

将 newcompaigndata 拖动至右侧工作区并预览数据：

预览 newcompaigndata 数据

在左侧抉择“预处理”>“字符串”>“字符串索引”算子并拖动至工作区，将数据源的 output 连贯至“字符串索引”算子的 input。

在左侧抉择“预处理”>“元信息”>“设置角色”算子并拖动至工作区，将“字符串索引”算子的 output 连贯至“设置角色”算子的 input。

算子连贯实现后如图所示：

预处理算子连贯

点击选中“字符串索引”算子，在右侧设置参数。newcompaigndata 没有“response”字段，抉择属性时去除“response”，其余设置与上一个试验雷同，不再反复。

点击选中“设置角色”算子，在右侧设置参数：

在左侧抉择“模型”，抉择之前导出的模型算子并拖动至工作区。

在左侧抉择“验证与评估”中的“利用模型”算子并拖向右侧工作区，将模型算子的 model 连贯至“利用模型”算子右侧的 model。同时将“设置角色”算子的 output 连贯至“利用模型”算子左侧的 input。

算子连贯实现后如图所示：

模型算子连贯

模型服务部署

如果心愿您训练出的模型能够投入使用，您能够抉择部署您的模型服务。模型服务部署分为 2 个步骤，模型上架（模型治理）及模型上线（服务治理）。

在预测试验右上方点击模型上架按钮，会弹出“模型上架”对话框。

在第一步抉择模型服务中填写参数：

模型上架页面 > 抉择模型服务

图片

全副填写实现后点击“下一步”。在第二步新建模型版本中填写参数：

全副填写实现后点击“下一步”。

在第三步接口配置中填写参数。先在“给上架的模型设置输出”中勾选 newcampagindata。之后勾选“根底数据数据集”右侧的“全选”。最初点击“上架”以上架模型：

模型上架页面 > 接口配置

上架后点击左侧工具栏的“模型服务”按钮进入模型治理页面：

左侧工具栏的“模型服务”按钮

在模型治理页面找到方才上架的模型，点击版本治理按钮进入版本治理页面：

模型治理页面

在版本治理页面中，点击上线按钮进入上线模型服务页面：

版本治理页面

在上线模型服务页面中设置参数：

参数设置实现后，点击上线按钮。

点击左侧工具栏的模型服务按钮进入模型服务界面，点击上方的服务治理按钮进入服务治理页面。在该页面能够看到刚刚上线的模型。

服务治理页面

能够点击测试连贯按钮测试连贯状态。如果 API 有返回代表连贯胜利，无返回代表连贯失败。模型刚上线时会显示连贯失败，请稍后再尝试测试连贯。

小结

本文通过精准市场营销模型的训练、测试、预测、上线与理论利用为您展现了 Sophon Base 的应用流程。在 Sophon Base 的帮忙下企业能够简略疾速地训练出模型并失去模型的预测后果，依据预测后果，企业可能及时调整营销计划、筛选指标用户、辅助领导者进行决策。将模型上架后开发人员能够间接应用 API 对新用户进行筛选，最终实现企业对特定用户进行精准市场营销的目标。