关于算法:用-Spark-预测回头客

拜访【WRITE-BUG数字空间】_[内附残缺源码和文档]至此“淘宝双 11 数据分析与预测课程案例”所须要的环境配置实现。另外实际操作中发现在案例教程中存在一些小问题,比方教程中 Eclipse 版本为 3.8,然而在配置 Tomcat Server 时又要求配置 v8.0 版本,然而 3.8 版本的 Eclipse 最多仅反对到 v7.0 版本的 Tomcat,所以实际操作时应用了更新的 Eclipse 版本。一、运行环境理论配置环境联合了理论状况,没有和试验案例完全一致,不过整个性能失常实现。理论运行环境及版本如下所示。Linux:
Ubuntu14.04
JDK:
Openjdk-1.7.0_181
Hadoop: 2.7.6
MySQL: 5.7.24
Hive: 1.2.2
Sqoop: 1.4.7
Spark: 2.1.0
Eclipse: 4.5.0
Echarts: 3.8.4
配置过程中截图如下所示,因为步骤较多,仅截取局部关键步骤。

图 1.1 创立 hadoop 用户,增加管理权限

图 1.2 装置配置 SSH

图 1.3 配置 Java

图 1.4 配置 Hadoop

图 1.5 运行 Hadoop

图 1.6 配置运行 MySQL

图 1.7 配置运行 Hive

图 1.8 配置运行 Sqoop

图 1.9 配置运行 Spark至此“淘宝双 11 数据分析与预测课程案例”所须要的环境配置实现。另外实际操作中发现在案例教程中存在一些小问题,比方教程中 Eclipse 版本为 3.8,然而在配置 Tomcat Server 时又要求配置 v8.0 版本,然而 3.8 版本的 Eclipse 最多仅反对到 v7.0 版本的 Tomcat,所以实际操作时应用了更新的 Eclipse 版本。二、本地数据集上传到数据仓库 Hive试验数据集有 3 个文件,别离是用户行为日志文件 user_log.csv、回头客训练集 train.csv、回头客测试集 test.csv,以下是三个文件的数据格式及阐明。表 2.1 user_log 字段定义字段名字段含意user_id买家 iditem_id商品 idcat_id商品类别 idmerchant_id卖家 idbrand_id品牌 idmonth交易工夫:月day交易事件:日action行为,取值范畴{0,1,2,3},0 示意点击,1 示意退出购物车,2 示意购买,3 示意关注商品age_range买家年龄分段:1 示意年龄 <18,2 示意年龄在[18,24],3 示意年龄在[25,29],4 示意年龄在[30,34],5 示意年龄在[35,39],6 示意年龄在[40,49],7 和 8 示意年龄 >=50,0 和 NULL 则示意未知gender性别:0 示意女性,1 示意男性,2 和 NULL 示意未知province播种地址省份回头客训练集 train.csv 和回头客测试集 test.csv,训练集和测试集领有雷同的字段。表 2.2 user_log 字段定义字段名字段含意user_id买家 idage_range买家年龄分段:1 示意年龄 <18,2 示意年龄在[18,24],3 示意年龄在[25,29],4 示意年龄在[30,34],5 示意年龄在[35,39],6 示意年龄在[40,49],7 和 8 示意年龄 >=50,0 和 NULL 则示意未知gender性别:0 示意女性,1 示意男性,2 和 NULL 示意未知merchant_id卖家 idlabel是否是回头客,0 值示意不是回头客,1 值示意回头客,-1 值示意该用户曾经超出咱们所须要思考的预测范畴。NULL 值只存在测试集,在测试集中示意须要预测的值。

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理