hadoop Hadoop集群下jps查看不到datanode信息的解决办法 在每次hdfs namenode -format之后,namenode的cluster id都会被自动更新,一般这种情况先去看datanode的logs日志,确定是cluster id不一致的问题了,这时候应该去到hdfs的tmp/dfs/current文件下,把datanode的clu…
hadoop 新手入门大数据-Hadoop基础与电商行为日志分析三 HDFS:1.分布式2.commdity hardware 通用硬件上面3.高容错4.high throughput 高吞吐5.large data set普通文件系统 VS 分布式的文件系统 单机 横跨N个机器前提和设计目标:hardware failure硬件错误崩溃后的快速恢…
hadoop 新手入门大数据-Hadoop基础与电商行为日志分析一 chuanshang一个案例:美国一女高中生收到婴儿产品的推荐,被他的父亲向商场投诉,结果最终,意识到女儿真的怀了孕。大数据的4V特征:数据量 volume速度 velocity基于高度分析的价值 value (数据量与有用的数据价…
hadoop Hive元数据管理 众所周知,hive表中的数据是HDFS上的文件,可是hive怎么知道这些文件的内容都对应哪个字段,对应哪个分区呢?就是hive的元数据管理着这一切。通常在hive-site.xml中的元数据库配置成MySQL,替换Derby。
hadoop 基于-ZooKeeper-搭建-Hadoop-高可用集群 Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用,两者的实现基本类似,但 HDFS NameNode 对数据存储及其一致性的要求比 YARN ResourceManger 高得多,所以它的实现也更加复杂,故下面先进行…
hadoop 大数据入门指南GitHub开源项目 项目GitHub地址:[链接] 前 言 大数据技术栈思维导图 大数据常用软件安装指南 一、Hadoop 分布式文件存储系统——HDFS 分布式计算框架——MapReduce 集群资源管理器——YARN Hadoop单机伪集群环境搭建 Hadoop集群环境搭…
hadoop Spark的安装及配置 本文作者:foochane 本文链接:[链接] 1 安装说明 在安装spark之前,需要安装hadoop集群环境,如果没有可以查看:Hadoop分布式集群的搭建 1.1 用到的软件 软件 版本 下载地址 linux Ubuntu Server 18.04.2 LTS […
hadoop PySpark-SQL-相关知识介绍 大数据是这个时代最热门的话题之一。但是什么是大数据呢?它描述了一个庞大的数据集,并且正在以惊人的速度增长。大数据除了体积(Volume)和速度(velocity)外,数据的多样性(variety)和准确性(veracity)也是大数据…
hadoop Hive的安装及配置 title: Hive的安装及配置summary: 关键词:Hive ubuntu 安装和配置 Derby MySQL PostgreSQL 数据库连接date: 2019-5-19 13:25urlname: 2019051903author: foochaneimg: /medias/featureimages/19.jpgcategories: …
hadoop Hadoop分布式集群的搭建 title: Hadoop分布式集群的搭建summary: 关键词: Hadoop ubuntu 分布式集群 环境搭建 ssh 网络配置 java环境 date: 2019-5-19 11:09author: foochaneurlname: 2019051901categories: 大数据tags: