乐趣区

新手入门大数据-Hadoop基础与电商行为日志分析一

chuanshang 一个案例:美国一女高中生收到婴儿产品的推荐,被他的父亲向商场投诉,结果最终,意识到女儿真的怀了孕。
大数据的 4V 特征:
数据量 volume
速度 velocity
基于高度分析的价值 value(数据量与有用的数据价值可能是成反比的)
多样性 variety

大数据带来的技术变革

技术驱动:数据量大
    存储:文件存储 --> 分布式存储
    计算:单机 --> 分布式计算
    网络:万兆
    DB:RDBMS --> NOSQL (HBase/Redis...)

大数据技术概念:

单机:CPU Memory disk
分布式并行计算 / 处理

货物搬到船上,是一个数据采集
处理:小于多少的石头扔了 精细化的筛选

大数据的几个重要部分:

                1. 采集 flume/sqoop
                2. 存储 hadoop 
                3. 数据处理 / 挖掘 / 分析 hadoop spark flink
                4. 可视化

大数据典型应用:

         1. 报表 2. 用户画像 3. 指标监控 4. 指标预警(时效性的要求逐级变大)

学习一个新技术,直接看他的官网最好
Hadoop,hive,hbase 都是 Apache 社区下面的顶级开源项目
地址: hadoop.apache.org

              hive.apache.org
              hbase.apache.org   

reliable,scalable,distributed computing.(可依赖,可拓展,分布式计算)
Hadoop: 提供分布式的存储(一个文件被拆分成很多块,并且以副本的方式存储在各个节点中)和计算
是一个分布式的系统基础架构:用户可以在不了解分布式底层细节的情况下进行使用
分布式文件系统:HDFS 实现将文件分布式存储在很多的服务器上
分布式计算框架:Mapreduce 实现在很多机器上进行分布式并行计算
分布式资源调度框架:YARN 实现集群资源管理以及作业的调度

退出移动版