关于算法:用-Spark-预测回头客

拜访【WRITE-BUG 数字空间】_[内附残缺源码和文档] 至此“淘宝双 11 数据分析与预测课程案例”所须要的环境配置实现。另外实际操作中发现在案例教程中存在一些小问题，比方教程中 Eclipse 版本为 3.8，然而在配置 Tomcat Server 时又要求配置 v8.0 版本，然而 3.8 版本的 Eclipse 最多仅反对到 v7.0 版本的 Tomcat，所以实际操作时应用了更新的 Eclipse 版本。一、运行环境理论配置环境联合了理论状况，没有和试验案例完全一致，不过整个性能失常实现。理论运行环境及版本如下所示。Linux:
Ubuntu14.04
JDK:
Openjdk-1.7.0_181
Hadoop: 2.7.6
MySQL: 5.7.24
Hive: 1.2.2
Sqoop: 1.4.7
Spark: 2.1.0
Eclipse: 4.5.0
Echarts: 3.8.4
配置过程中截图如下所示，因为步骤较多，仅截取局部关键步骤。

图 1.1 创立 hadoop 用户, 增加管理权限

图 1.2 装置配置 SSH

图 1.3 配置 Java

图 1.4 配置 Hadoop

图 1.5 运行 Hadoop

图 1.6 配置运行 MySQL

图 1.7 配置运行 Hive

图 1.8 配置运行 Sqoop

图 1.9 配置运行 Spark 至此“淘宝双 11 数据分析与预测课程案例”所须要的环境配置实现。另外实际操作中发现在案例教程中存在一些小问题，比方教程中 Eclipse 版本为 3.8，然而在配置 Tomcat Server 时又要求配置 v8.0 版本，然而 3.8 版本的 Eclipse 最多仅反对到 v7.0 版本的 Tomcat，所以实际操作时应用了更新的 Eclipse 版本。二、本地数据集上传到数据仓库 Hive 试验数据集有 3 个文件，别离是用户行为日志文件 user_log.csv、回头客训练集 train.csv、回头客测试集 test.csv，以下是三个文件的数据格式及阐明。表 2.1 user_log 字段定义字段名字段含意 user_id 买家 iditem_id 商品 idcat_id 商品类别 idmerchant_id 卖家 idbrand_id 品牌 idmonth 交易工夫: 月 day 交易事件: 日 action 行为, 取值范畴 {0,1,2,3}，0 示意点击，1 示意退出购物车，2 示意购买，3 示意关注商品 age_range 买家年龄分段：1 示意年龄 <18，2 示意年龄在 [18,24]，3 示意年龄在 [25,29]，4 示意年龄在 [30,34]，5 示意年龄在 [35,39]，6 示意年龄在 [40,49]，7 和 8 示意年龄 >=50,0 和 NULL 则示意未知 gender 性别:0 示意女性，1 示意男性，2 和 NULL 示意未知 province 播种地址省份回头客训练集 train.csv 和回头客测试集 test.csv，训练集和测试集领有雷同的字段。表 2.2 user_log 字段定义字段名字段含意 user_id 买家 idage_range 买家年龄分段：1 示意年龄 <18，2 示意年龄在 [18,24]，3 示意年龄在 [25,29]，4 示意年龄在 [30,34]，5 示意年龄在 [35,39]，6 示意年龄在 [40,49]，7 和 8 示意年龄 >=50,0 和 NULL 则示意未知 gender 性别:0 示意女性，1 示意男性，2 和 NULL 示意未知 merchant_id 卖家 idlabel 是否是回头客，0 值示意不是回头客，1 值示意回头客，-1 值示意该用户曾经超出咱们所须要思考的预测范畴。NULL 值只存在测试集，在测试集中示意须要预测的值。