场景体验指标
数据量爆发式增长的明天,数字化转型成为 IT 行业的热点,数据须要更深度的价值开掘,应答将来一直变动的需要。海量离线数据分析能够利用于多种商业系统环境,例如电商海量日志剖析、用户行为画像剖析、科研行业的海量离线计算剖析工作等场景。
本场景将通过开明登录 EMR Hadoop 集群,简略进行 hive 操作,应用 hive 对数据进行加载,计算等操作。展现了如何构建弹性低成本的离线大数据分析。
体验此场景后,能够把握的常识有:
1.EMR 集群的基本操作,对 EMR 产品有初步的理解
2.EMR 集群的数据传输和 hive 的简略操作,对如何进行离线大数据分析有初步的把握
背景常识
E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简略易集成的 Hadoop、Hive、Spark、Flink、Presto、Clickhouse、Delta、Hudi 等开源大数据计算和存储引擎。EMR 计算资源能够依据业务的须要调整。EMR 能够部署在阿里云私有云的 ECS 和 ACK、专有云平台。产品文档地址:体验实验室收费体验)
上传数据到 HDFS
1. 创立 HDFS 目录。
hdfs dfs -mkdir -p /data/student
2. 上传文件到 hadoop 文件系统。
a. 应用以下命令下载示例数据文件到服务器内:
wget https://labfileapp.oss-cn-hangzhou.aliyuncs.com/%E5%85%AC%E5%85%B1%E6%96%87%E4%BB%B6/u.txt
b. 上传文件到 hadoop 文件系统。
hdfs dfs -put u.txt /data/student
3. 查看文件
hdfs dfs -ls /data/student
应用 hive 创立表
1. 登入 hive 数据库。
[root@emr-header-1 ~]# hive
Logging initialized using configuration in file:/etc/ecm/hive-conf-2.3.7-1.1.7/hive-log4j2.properties Async: true
Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
2. 创立 user 表。
CREATE TABLE emrusers (
userid INT,
movieid INT,
rating INT,
unixtime STRING )
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
;
-
从 hadoop 文件系统加载数据到 hive 数据表。
LOAD DATA INPATH '/data/student/u.txt' INTO TABLE emrusers;
对表进行操作
1. 查看表数据。
select * from emrusers limit 5;
2. 计算 count。
select count(*) from emrusers;
- 评级最高的三个电影。
select movieid,sum(rating) as rat from emrusers group by movieid order by rat desc limit 3;