Tagged: 大数据

关于大数据:MapReduce怎么优雅地实现全局排序 0

关于大数据:MapReduce怎么优雅地实现全局排序

想到全局排序,是否第一想到的是,从map端收集数据,shuffle到reduce来,设置一个reduce,再对reduce中的数据排序,显然这样和单机器并没有什么区别,要晓得mapreduce框架默认是对key来排序的,当然也能够将value放到key下面来达到对value排序,最初在reduce时候对调回去,另外排序是针对雷同分区,即一个reduce来排序的…

关于大数据:HDFS主要流程 0

关于大数据:HDFS主要流程

HDFS的几个典型的流程:客户端读HDFS文件流程、客户端写HDFS文件流程、客户端追加写HDFS文件流程、数据节点与名字节点交互流程以及HDFS HA切换流程等。

关于大数据:数据湖架构为什么需要湖加速 0

关于大数据:数据湖架构为什么需要湖加速

简介: 湖减速即为数据湖减速,是指在数据湖架构中,为了对立反对各种计算,对数据湖存储提供适配反对,进行优化和缓存减速的中间层技术。那么为什么须要湖减速?数据湖如何实现“减速”?本文将从三个方面来介绍湖减速背地的起因,分享阿里云在湖减速上的实践经验和技术计划。

关于大数据:大数据简介技术体系分类整理 0

关于大数据:大数据简介技术体系分类整理

简介: 大数据是指无奈在肯定工夫范畴内用惯例软件工具进行捕获、治理和解决的数据汇合,是须要新解决模式能力具备更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术则次要用来解决海量数据的存储和剖析。

关于大数据:大数据简介技术体系分类整理 0

关于大数据:大数据简介技术体系分类整理

大数据是指无奈在肯定工夫范畴内用惯例软件工具进行捕获、治理和解决的数据汇合,是须要新解决模式能力具备更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术则次要用来解决海量数据的存储和剖析。

关于大数据:Hbase常用基础命令 0

关于大数据:Hbase常用基础命令

Hbase表构造1.进入Hbase shell {代码…} 2.查看以后操作用户 {代码…} 3.创立一个表 {代码…} 4.查看数据库的表 {代码…} 5.增加数据 {代码…} 6.查问记录行数 {代码…} 7.通过Row key查问记录 {代码…} 8.通过Row key和列族查问数据 {代码…} 9.查问表中所有的记录 {代码…} 10.只查看某一列的数据 {代码…} …

关于大数据:HadoopHbase伪集群安装步骤 0

关于大数据:HadoopHbase伪集群安装步骤

Hbase和Hadoop和jdk版本肯定要对应,不然很容易出错Hbase和jdk版本对应关系Java VersionHBase 1.3+HBase 2.1+HBase 2.3+JDK7反对不反对不反对JDK8反对反对反对JDK11不反对不反对没有测试Hbase和Hadoop版本对应关系 HBase-1.3.xHBase-1.4.xHBase-1.5.xHBase-2.1.xHBase-2.2.xHBase-2.3.xHadoop-2.4.x反对不反对不反对不支…

关于大数据:Fluid-让大数据和-AI-拥抱云原生的一块重要拼图 0

关于大数据:Fluid-让大数据和-AI-拥抱云原生的一块重要拼图

简介: 如何驱动大数据、AI 利用在云原生场景下高效运行是一个既有理论意义又具利用价值的重要挑战性问题,为系统化解决相干问题,学术界和工业界密切合作,南京大学 PASALab 副研究员顾荣博士、阿里云容器服务高级技术专家车漾、Alluxio 我的项目开创成员范斌博士联结推动发动了 Fluid开源合作项目。

关于大数据:数据系统架构1基础数据篇 0

关于大数据:数据系统架构1基础数据篇

本篇文章次要介绍一下根底数据局部,数据起源次要分成2方面,第一局部介绍一下日志相干内容,第二局部介绍一下业务源表相干,以及在此基础上构建的采集零碎与形象零碎,之后再介绍一些常见的问题与对应的解决方案。