hadoop - 第30页 - 乐趣区

hadoop 用于大数据测试、学习的测试数据

近期在做一个数据报表的项目，原数据在mysql中，现数据量上百万后，整个报表无法查询。故学习hadoop、kylin相关知识，学习过程中碰到了不少问题，后续讲统一整理发布本篇主要为记录为学习准备的测试数据

hadoop 全面了解大数据“三驾马车”的开源实现

3.DataNode 负责文件数据的存储和读写操作，HDFS 将文件数据分割成若干数据块（Block），每个 DataNode 存储一部分数据块，这样文件就分布存储在整个 HDFS 服务器集群中。

hadoop SQLflow:基于python开发的分布式机器学习平台, 支持通过写sql的方式,运行spark, 机器学习算法, 爬虫

Sqlflow based on python development, support to Spark, Flink, etc as the underlying distributed computing engine, through a set of unified configuration file to complete the batch, flow calculation…

hadoop Hadoop小文件解决方案-基于文件整合的解决方案

通过研究一些不太常用的替代方案来解决MapReduce性能问题以及选择解决方案时要考虑的因素。解决MapReduce性能问题以下解决方案来缓解MapReduce性能问题：更改摄取过程/间隔批处理文件合并序列文件 HBase S3D…

hadoop Hadoop小文件解决方案-基于NameNode内存和MapReduce性能解决方案

在第一篇文章中，我讨论了什么构成了一个小文件，以及为什么Hadoop存在小文件问题。我将一个小文件定义为小于Hadoop块大小75％的任何文件，并解释说由于NameNode内存使用和MapReduce性能，Hadoop更喜欢较少的较大…

hadoop Hadoop小文件解决方案-Hadoop小文件的前因后果

Hadoop不适用于大量小文件，而是需要更少的大文件。这可能是您之前听过的声明。但是，为什么Hadoop会出现大量小文件的问题？而且，“小”究竟是什么意思呢？在本系列的第一部分中，我将回答这些问题。后续部分将讨…

hadoop 以智能数据架构，挖掘增长金矿

对很多技术团队来说，在搭建智能数据架构的过程中，或多或少会遇到一些疑惑和挑战，经过多次实践后，有些团队已经破除疑惑，成功探索出一条搭建智能数据架构之路，那么他们是如何实现这一技术的呢？在近日的个推…

hadoop 应用AI芯片加速 Hadoop 3.0 纠删码的计算性能

做为大数据生态系统中最重要的底层存储文件系统HDFS，为了保证系统的可靠性，HDFS通过多副本的冗余来防止数据的丢失。通常，HDFS中每一份数据都设置两个副本，这也使得存储利用率仅为1/3，每TB数据都需要占用3TB…

hadoop 要不,我们简单聊聊Hadoop与它的生态圈

实际上,关于Hadoop及其生态系统的文章或者书籍已经汗牛充栋,在2016年大数据这个概念兴起的时候,有幸于能进入数据行业。虽然,在这2年里,并没有达到自己最初的期望,不过还是跨出了那么一步。这里,我们简单的聊聊Ha…

hadoop 趣味集算：wordcount

WordCount 差不多是最常用的分布式系统练习程序了，Hadoop 就经常用这个当例子。我们来看用集算器怎么做 wordcount。