共计 1393 个字符,预计需要花费 4 分钟才能阅读完成。
数新网络官网已全新上线,欢送点击拜访
www.datacyber.com 数新网络_让每个人享受数据的价值
01 数据迁徙场景
不同平台之间的迁徙,比方 apache hadoop 到 cdh 数据迁徙;集群数据个体迁徙,因为业务倒退迅速,以后集群可能有比拟大的业务压力,须要把数据整体迁徙到更大的集群;数据的准实时同步,为了保证数据的双备份可用,须要定期的同步数据,保障两个集群的数据周期内根本完全一致。这样做的益处是如果某一天 A 集群宕机了,能够把线上应用的集群间接切到 B 集群而不会造成影响。
02 hadoop 集群间数据命令
hadoop distcphdfs://master1:8020/foo/barhdfs://master2:8020/bar/foo
03 什么是 distcp?是如何实现的?
Distcp 是 hadoop 外部自带的一个程序,用于 hdfs 之间的数据拷贝。Distcp 是作为一个 MapReduce 作业来实现的,该复制作业是通过集群中并行运行的 map 来实现。每个文件通过一个 map 进行复制,并且 distcp 试图为每一个 map 调配大抵相等的数据来执行,即把文件划分为大抵相等的块。默认状况下,每个集群节点最多调配 20 个 map 工作。
04 distcp 罕用的参数
编辑
编辑
05 Distcp 劣势个性
带宽限流:Distcp 是反对带宽限流的,使用者能够通过命令参数 bandwidth 来为程序进行限流,原理相似于 HDFS 中数据 Balance 程序的限流。增量数据同步:对于增量数据同步的需要,在 distcp 中也失去了很好的实现。通过 update,append 和 diff 2 个参数能很好地解决。官网的参数应用阐明:Update: Update target, copying only missing files or directories;
Append: Reuse existing data in target files and append new data to them if possible;
Diff: Use snapshot diff report to identify the difference between source and target.
高效的性能:执行的分布式个性高效的 MR 组件。
06 hive 数据迁徙
1. hive 数据 export 到 hdfs
export table tablename to ‘/tmp/export/tablename’;
2. 数据复制
hadoop distcp -D ipc.client.fallback-to-simple-auth-allowed=true-D dfs.checksum.combine.mode=COMPOSITE_CRChdfs://master1:8020/tmp/export/tablenamehdfs://master2:8020/tmp/export/tablename
3. 新集群创立表并且导入数据
在源 hive show create table tbName 显示建表语句,用语句在指标 hive 建表,而后导入数据:LODA DATA [LOCAL] INPATH‘filepath’;
4. 验证数据是否雷同
select count(*) from ‘tablename’
本期分享就到这里,欢送关注咱们理解更多精彩内容~