关于算法:用-Spark-预测回头客

拜访【WRITE-BUG数字空间】_[内附残缺源码和文档]至此“淘宝双 11 数据分析与预测课程案例”所须要的环境配置实现。另外实际操作中发现在案例教程中存在一些小问题，比方教程中 Eclipse 版本为 3.8，然而在配置 Tomcat Server 时又要求配置 v8.0 版本，然而 3.8 版本的 Eclipse 最多仅反对到 v7.0 版本的 Tomcat，所以实际操作时应用了更新的 Eclipse 版本。一、运行环境理论配置环境联合了理论状况，没有和试验案例完全一致，不过整个性能失常实现。理论运行环境及版本如下所示。Linux:
Ubuntu14.04
JDK:
Openjdk-1.7.0_181
Hadoop: 2.7.6
MySQL: 5.7.24
Hive: 1.2.2
Sqoop: 1.4.7
Spark: 2.1.0
Eclipse: 4.5.0
Echarts: 3.8.4
配置过程中截图如下所示，因为步骤较多，仅截取局部关键步骤。

图 1.1 创立 hadoop 用户,增加管理权限

图 1.2 装置配置 SSH

图 1.3 配置 Java

图 1.4 配置 Hadoop

图 1.5 运行 Hadoop

图 1.6 配置运行 MySQL

图 1.7 配置运行 Hive

图 1.8 配置运行 Sqoop

图 1.9 配置运行 Spark至此“淘宝双 11 数据分析与预测课程案例”所须要的环境配置实现。另外实际操作中发现在案例教程中存在一些小问题，比方教程中 Eclipse 版本为 3.8，然而在配置 Tomcat Server 时又要求配置 v8.0 版本，然而 3.8 版本的 Eclipse 最多仅反对到 v7.0 版本的 Tomcat，所以实际操作时应用了更新的 Eclipse 版本。二、本地数据集上传到数据仓库 Hive试验数据集有 3 个文件，别离是用户行为日志文件 user_log.csv、回头客训练集 train.csv、回头客测试集 test.csv，以下是三个文件的数据格式及阐明。表 2.1 user_log 字段定义字段名字段含意user_id买家 iditem_id商品 idcat_id商品类别 idmerchant_id卖家 idbrand_id品牌 idmonth交易工夫:月day交易事件:日action行为,取值范畴{0,1,2,3}，0 示意点击，1 示意退出购物车，2 示意购买，3 示意关注商品age_range买家年龄分段：1 示意年龄 <18，2 示意年龄在[18,24]，3 示意年龄在[25,29]，4 示意年龄在[30,34]，5 示意年龄在[35,39]，6 示意年龄在[40,49]，7 和 8 示意年龄 >=50,0 和 NULL 则示意未知gender性别:0 示意女性，1 示意男性，2 和 NULL 示意未知province播种地址省份回头客训练集 train.csv 和回头客测试集 test.csv，训练集和测试集领有雷同的字段。表 2.2 user_log 字段定义字段名字段含意user_id买家 idage_range买家年龄分段：1 示意年龄 <18，2 示意年龄在[18,24]，3 示意年龄在[25,29]，4 示意年龄在[30,34]，5 示意年龄在[35,39]，6 示意年龄在[40,49]，7 和 8 示意年龄 >=50,0 和 NULL 则示意未知gender性别:0 示意女性，1 示意男性，2 和 NULL 示意未知merchant_id卖家 idlabel是否是回头客，0 值示意不是回头客，1 值示意回头客，-1 值示意该用户曾经超出咱们所须要思考的预测范畴。NULL 值只存在测试集，在测试集中示意须要预测的值。

关于算法:用-Spark-预测回头客

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于算法:用-Spark-预测回头客

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复