关于数据分析:基于EMR离线数据分析阿里云

场景体验指标

数据量爆发式增长的明天，数字化转型成为IT行业的热点，数据须要更深度的价值开掘，应答将来一直变动的需要。海量离线数据分析能够利用于多种商业系统环境，例如电商海量日志剖析、用户行为画像剖析、科研行业的海量离线计算剖析工作等场景。

本场景将通过开明登录EMR Hadoop集群，简略进行hive操作，应用hive对数据进行加载，计算等操作。展现了如何构建弹性低成本的离线大数据分析。

体验此场景后，能够把握的常识有：

1.EMR集群的基本操作，对EMR产品有初步的理解

2.EMR集群的数据传输和hive的简略操作，对如何进行离线大数据分析有初步的把握

背景常识

E-MapReduce（简称“EMR”）是云原生开源大数据平台，向客户提供简略易集成的Hadoop、Hive、Spark、Flink、Presto、Clickhouse、Delta、Hudi等开源大数据计算和存储引擎。EMR计算资源能够依据业务的须要调整。EMR能够部署在阿里云私有云的ECS和ACK、专有云平台。产品文档地址：体验实验室收费体验）

上传数据到HDFS

1.创立HDFS目录。

hdfs dfs -mkdir -p /data/student

2.上传文件到hadoop文件系统。
a. 应用以下命令下载示例数据文件到服务器内：

wget https://labfileapp.oss-cn-hangzhou.aliyuncs.com/%E5%85%AC%E5%85%B1%E6%96%87%E4%BB%B6/u.txt

b. 上传文件到hadoop文件系统。

hdfs dfs -put u.txt /data/student

3.查看文件

hdfs dfs -ls /data/student

应用hive创立表

1.登入hive数据库。

[root@emr-header-1 ~]# hive
Logging initialized using configuration in file:/etc/ecm/hive-conf-2.3.7-1.1.7/hive-log4j2.properties Async: true
Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.

2.创立user表。

CREATE TABLE emrusers (
   userid INT,
   movieid INT,
   rating INT,
   unixtime STRING ) 
  ROW FORMAT DELIMITED 
  FIELDS TERMINATED BY '\t' 
  ;

从hadoop文件系统加载数据到hive数据表。

 LOAD DATA INPATH '/data/student/u.txt' INTO TABLE emrusers;

对表进行操作

1.查看表数据。

select * from emrusers limit 5;

2.计算count。

select count(*) from emrusers;

评级最高的三个电影。

select movieid,sum(rating) as rat from emrusers group by movieid order by rat desc limit 3;

关于数据分析:基于EMR离线数据分析阿里云

场景体验指标

背景常识

上传数据到HDFS

应用hive创立表

对表进行操作

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于数据分析:基于EMR离线数据分析阿里云

场景体验指标

背景常识

上传数据到HDFS

应用hive创立表

对表进行操作

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复