共计 728 个字符,预计需要花费 2 分钟才能阅读完成。
chuanshang 一个案例:美国一女高中生收到婴儿产品的推荐,被他的父亲向商场投诉,结果最终,意识到女儿真的怀了孕。
大数据的 4V 特征:
数据量 volume
速度 velocity
基于高度分析的价值 value(数据量与有用的数据价值可能是成反比的)
多样性 variety
大数据带来的技术变革
技术驱动:数据量大
存储:文件存储 --> 分布式存储
计算:单机 --> 分布式计算
网络:万兆
DB:RDBMS --> NOSQL (HBase/Redis...)
大数据技术概念:
单机:CPU Memory disk
分布式并行计算 / 处理
货物搬到船上,是一个数据采集
处理:小于多少的石头扔了 精细化的筛选
大数据的几个重要部分:
1. 采集 flume/sqoop
2. 存储 hadoop
3. 数据处理 / 挖掘 / 分析 hadoop spark flink
4. 可视化
大数据典型应用:
1. 报表 2. 用户画像 3. 指标监控 4. 指标预警(时效性的要求逐级变大)
学习一个新技术,直接看他的官网最好
Hadoop,hive,hbase 都是 Apache 社区下面的顶级开源项目
地址: hadoop.apache.org
hive.apache.org
hbase.apache.org
reliable,scalable,distributed computing.(可依赖,可拓展,分布式计算)
Hadoop: 提供分布式的存储(一个文件被拆分成很多块,并且以副本的方式存储在各个节点中)和计算
是一个分布式的系统基础架构:用户可以在不了解分布式底层细节的情况下进行使用
分布式文件系统:HDFS 实现将文件分布式存储在很多的服务器上
分布式计算框架:Mapreduce 实现在很多机器上进行分布式并行计算
分布式资源调度框架:YARN 实现集群资源管理以及作业的调度
正文完