阿里云 ACA 级认证是阿里云助力工程师认证,现我来分享一下 ACP 认证考试攻略.
一、理解阿里云 ACA 认证
1、数加是指阿里云大数据平台,蕴含了一系列的大数据产品及服务。计算引擎(三类):离线计算、流式计算、在线计算。
MaxCompute:由阿里云自主研发,提供针对 TB/PB 级数据、实时性要求不高的分布式解决能力,利用于数据分析、开掘、商业智能等畛域。阿里巴巴的数据业务都运行在
3、MaxCompute 特点:分布式(分布式集群架构)、安全性(主动存储容错)、易用性(标准接口服务)、治理与受权(多用户的治理协同)。
4、MaxCompute 对象:Project 我的项目空间,所有对象都隶属于我的项目空间,计量计费及安全控制的根本单元
5、Table 表:所有的数据都存储在表露,反对表分区,反对依赖于表的视图
6:Partition 分区:上传时,手工创立分区并保证质量,应用 insert 数据时反对动静分区
7、其它概念
Ø7.1Task 工作:MaxCompute 根本计算单元,SQL 及 MR 都是通过工作实现的
Ø7.2Instance 实例:工作的一个具体实例,示意理论运行的 task
Ø7.3Sandbox 沙箱:依照安全策略限度程序行为的执行环境
分区表指的是在创立表时指定分区键,即指定表内的某几个字段作为分区列。在应用数据时如果指定了须要拜访的分区名称,则只会读取相应的分区,防止全表扫描,进步解决效率,升高费用 MaxCompute 数据类型:bigint、string、boolean、double、datetime、edecimal
二、学习阿里云 ACA 认证,MaxCompute 架构:
2.1 客户端:eclipse、clt、治理控制台(DMS)、dataide、intelij
2.2 逻辑层:申请分为计算型和非计算型。如果是非计算型,则申请处理器解决后返回。如果是计算型。则交给调度器解决。但其实调度器也不是做真正的解决,而是以 xml 文件的模式交给计算层进行解决。
2.3 计算层
Tunnel 根本语法
1.tunnel 或者 tunnel help 查看帮忙信息
2.tunnel upload [options] <[project.]table[/partition]> 数据上传
tunnel upload d:\test\all.txt yunxiang_01.t_test_all
tunnel upload d:\test\all.txt yunxiang_01.t_test_p/gender=’male’
tunnel upload d:\test\all.txt yunxiang_01.t_test_all -dbr true; // 容忍谬误
参数:
-dbr 谬误记录解决,缺省值为 false,即不能容忍任何谬误记录
-dfp 日期类型的格局,缺省为:yyyyMMddHHmmss
-mbr 最大谬误记录数,缺省值为 1000
-rd 行分隔符
-fd 列分隔符
反对文件或目录 (只一级目录) 的上传
每一次上传只反对数据上传到一个表或表的一个分区
有分区的表肯定要指定上传的分区
3.tunnel download 数据下载
tunnel download [options] <[project.]table[/partition]>
tunnel download yunxiang_01.t_test_all d:\test\all.txt
tunnel download test_project.test_table/p1=”b1”,p2=”b2”log.txt
只反对下载到单个文件
每一次下载只反对一个表或者一个分区
有分区的表肯定要指定下载的分区
2.4. 分隔符
反对多个字符的列分隔符和行分隔符
反对控制字符等不可见字符做分隔符
列分隔符不能蕴含行分隔符
转义字符分隔符,在命令行模式下只反对 \r,\n 和 \t
tunnel upload d:\p.txt t_test_p/gender=’male’-fd“||”-rd“\r\n”
tunnel download t_test_p/gender=’male’d:\p_download.txt -fd“||||”-rd“&&”
tunnel upload d:\p.txt t_test_p/gender=’male’-fd“\b”-rd“\t”(谬误,因为不反对 \b)
fd 列分隔符 rd 行分隔符
DDL:建表、删表、批改表明
三、阿里云 ACA 认证,表的生命周期:
MC 表中的数据,从最初一次更新工夫算起,在通过指定的工夫后没有变动,则此表将被 MC 主动回收(删除)。此指定工夫就是该表的生命周期。生命周期受权单位;days(天),只能指定正整数, 生命周期只能指定表级的,不能指定分区级的
分区表和非分区表都能够指定生命周期, 对于非分区表的生命周期,自最初一次数据被批改的工夫开始计算,通过 days 天后数据仍未改变,则此表将会被主动回收, 对于分区表的生命周期,则依据各个分区的最初一次数据被批改的工夫判断该分区是否会被回收。即时所有分区都被删除,该表也不会被删除,仍然存在若建表时不指定生命周期,则该表不会依据生命周期规定被 MC 主动回收.