hadoop Hadoop-系列一-分布式文件系统-HDFS HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。
hadoop HDFS读写流程译 由 DistributedFileSystem 通过 RPC 向 NameNode 请求返回文件的 Block 块所在的 DataNode 的地址。(我们知道 HDFS 默认策略对某个 Block 会保存三份副本到不同的 DataNode,那么 NameNode 应该返回那个 DataNod…
hadoop 十年数据分析经验总结出这三类工具最好用 虽然这个问题有点俗套,但是很重要,我也一直努力在追求这个终极问题的答案。如果大家在网上去搜索这方面相关的信息,你又很难看到一个公平的观点。因为评价某一个工具的好坏评论者都可能站在不同的角度,带上一…
hadoop kafka源码解析2Metadata集群元信息 上一节讲到Cluster主要用来存放Node节点信息,TopicPartition分区信息和PartitionInfo分区详细信息,本节要讲的Metadata是将Cluster封装,提供一个统一的查询入口,此外还提供了对集群信息的更新操作。
hadoop hadoop241伪分布式搭建 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.1.0 子网掩码:255.255.255.0 -> apply -> ok
hadoop Hadoop安全模式Safe-mode The number of live datanodes 0 has reached the minimum number 0. Safe mode will be turned off automatically once the thresholds have been reached. NamenodeHostName:XXX
hadoop Giraph源码分析七-添加消息统计功能 1、 添加类,把每个超步发送的消息量大小写入Hadoop的Counter中。在org.apache.giraph.counters包下新建GiraphMessages类,来统计消息量。
hadoop Giraph源码分析六Edge-分析 1.在Vertex类中,顶点的存储方式采用邻接表形式。每个顶点有 VertexId、VertexValue、OutgoingEdges和Halt,boolean型的halt变量用于记录顶点的状态,false时表示active,true表示inactive状态。 片段代码如下。