hadoop - 第26页 - 乐趣区

hadoop Hadoop集群下jps查看不到datanode信息的解决办法

在每次hdfs namenode -format之后，namenode的cluster id都会被自动更新，一般这种情况先去看datanode的logs日志，确定是cluster id不一致的问题了，这时候应该去到hdfs的tmp/dfs/current文件下，把datanode的clu…

hadoop 新手入门大数据-Hadoop基础与电商行为日志分析三

HDFS：1.分布式2.commdity hardware 通用硬件上面3.高容错4.high throughput 高吞吐5.large data set普通文件系统 VS 分布式的文件系统单机横跨N个机器前提和设计目标：hardware failure硬件错误崩溃后的快速恢…

hadoop 新手入门大数据-Hadoop基础与电商行为日志分析一

chuanshang一个案例：美国一女高中生收到婴儿产品的推荐，被他的父亲向商场投诉，结果最终，意识到女儿真的怀了孕。大数据的4V特征：数据量 volume速度 velocity基于高度分析的价值 value （数据量与有用的数据价…

hadoop Hive元数据管理

众所周知，hive表中的数据是HDFS上的文件，可是hive怎么知道这些文件的内容都对应哪个字段，对应哪个分区呢？就是hive的元数据管理着这一切。通常在hive-site.xml中的元数据库配置成MySQL，替换Derby。

hadoop 基于-ZooKeeper-搭建-Hadoop-高可用集群

Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用，两者的实现基本类似，但 HDFS NameNode 对数据存储及其一致性的要求比 YARN ResourceManger 高得多，所以它的实现也更加复杂，故下面先进行…

hadoop 大数据入门指南GitHub开源项目

项目GitHub地址：[链接] 前言大数据技术栈思维导图大数据常用软件安装指南一、Hadoop 分布式文件存储系统——HDFS 分布式计算框架——MapReduce 集群资源管理器——YARN Hadoop单机伪集群环境搭建 Hadoop集群环境搭…

hadoop Spark的安装及配置

本文作者：foochane 本文链接：[链接] 1 安装说明在安装spark之前，需要安装hadoop集群环境，如果没有可以查看：Hadoop分布式集群的搭建 1.1 用到的软件软件版本下载地址 linux Ubuntu Server 18.04.2 LTS […

hadoop PySpark-SQL-相关知识介绍

大数据是这个时代最热门的话题之一。但是什么是大数据呢?它描述了一个庞大的数据集，并且正在以惊人的速度增长。大数据除了体积(Volume)和速度(velocity)外，数据的多样性(variety)和准确性(veracity)也是大数据…

hadoop Hive的安装及配置

title: Hive的安装及配置summary: 关键词：Hive ubuntu 安装和配置 Derby MySQL PostgreSQL 数据库连接date: 2019-5-19 13:25urlname: 2019051903author: foochaneimg: /medias/featureimages/19.jpgcategories: …

hadoop Hadoop分布式集群的搭建

title: Hadoop分布式集群的搭建summary: 关键词： Hadoop ubuntu 分布式集群环境搭建 ssh 网络配置 java环境 date: 2019-5-19 11:09author: foochaneurlname: 2019051901categories: 大数据tags: