关于算法:用-Spark-预测回头客

8次阅读

共计 1417 个字符,预计需要花费 4 分钟才能阅读完成。

拜访【WRITE-BUG 数字空间】_[内附残缺源码和文档] 至此“淘宝双 11 数据分析与预测课程案例”所须要的环境配置实现。另外实际操作中发现在案例教程中存在一些小问题,比方教程中 Eclipse 版本为 3.8,然而在配置 Tomcat Server 时又要求配置 v8.0 版本,然而 3.8 版本的 Eclipse 最多仅反对到 v7.0 版本的 Tomcat,所以实际操作时应用了更新的 Eclipse 版本。一、运行环境理论配置环境联合了理论状况,没有和试验案例完全一致,不过整个性能失常实现。理论运行环境及版本如下所示。Linux:
Ubuntu14.04
JDK:
Openjdk-1.7.0_181
Hadoop: 2.7.6
MySQL: 5.7.24
Hive: 1.2.2
Sqoop: 1.4.7
Spark: 2.1.0
Eclipse: 4.5.0
Echarts: 3.8.4
配置过程中截图如下所示,因为步骤较多,仅截取局部关键步骤。

图 1.1 创立 hadoop 用户, 增加管理权限

图 1.2 装置配置 SSH

图 1.3 配置 Java

图 1.4 配置 Hadoop

图 1.5 运行 Hadoop

图 1.6 配置运行 MySQL

图 1.7 配置运行 Hive

图 1.8 配置运行 Sqoop

图 1.9 配置运行 Spark 至此“淘宝双 11 数据分析与预测课程案例”所须要的环境配置实现。另外实际操作中发现在案例教程中存在一些小问题,比方教程中 Eclipse 版本为 3.8,然而在配置 Tomcat Server 时又要求配置 v8.0 版本,然而 3.8 版本的 Eclipse 最多仅反对到 v7.0 版本的 Tomcat,所以实际操作时应用了更新的 Eclipse 版本。二、本地数据集上传到数据仓库 Hive 试验数据集有 3 个文件,别离是用户行为日志文件 user_log.csv、回头客训练集 train.csv、回头客测试集 test.csv,以下是三个文件的数据格式及阐明。表 2.1 user_log 字段定义字段名字段含意 user_id 买家 iditem_id 商品 idcat_id 商品类别 idmerchant_id 卖家 idbrand_id 品牌 idmonth 交易工夫: 月 day 交易事件: 日 action 行为, 取值范畴 {0,1,2,3},0 示意点击,1 示意退出购物车,2 示意购买,3 示意关注商品 age_range 买家年龄分段:1 示意年龄 <18,2 示意年龄在 [18,24],3 示意年龄在 [25,29],4 示意年龄在 [30,34],5 示意年龄在 [35,39],6 示意年龄在 [40,49],7 和 8 示意年龄 >=50,0 和 NULL 则示意未知 gender 性别:0 示意女性,1 示意男性,2 和 NULL 示意未知 province 播种地址省份回头客训练集 train.csv 和回头客测试集 test.csv,训练集和测试集领有雷同的字段。表 2.2 user_log 字段定义字段名字段含意 user_id 买家 idage_range 买家年龄分段:1 示意年龄 <18,2 示意年龄在 [18,24],3 示意年龄在 [25,29],4 示意年龄在 [30,34],5 示意年龄在 [35,39],6 示意年龄在 [40,49],7 和 8 示意年龄 >=50,0 和 NULL 则示意未知 gender 性别:0 示意女性,1 示意男性,2 和 NULL 示意未知 merchant_id 卖家 idlabel 是否是回头客,0 值示意不是回头客,1 值示意回头客,-1 值示意该用户曾经超出咱们所须要思考的预测范畴。NULL 值只存在测试集,在测试集中示意须要预测的值。

正文完
 0