关于hadoop:大数据背景

我认为大数据的相干不应仅仅局限于技术了解，更应对于其背景有深度的剖析，能力更好使用技术结合实际，充沛浏览了许多材料之后，总结下来有以下几点，大数据也基于以下造成三个历史过程
剖析需要，数据收集存储 => 数据处理，剖析 => 利用：如报告，展现
- 5g，挪动利用衰亡，各行业互联网化产生大量数据 -> 数据采集起源（日志，数据库，爬虫）
- 企业对于大量数据荡涤筛选有价值信息有较高的要求，有较高的实时剖析需要 -> 数据分析
  - 采集和简略剖析罕用生态有
    - elk 生态(elasticsearch+fileBeats+Logstash+Kibana(帆软)) 本局部我将会在后边做详细描述
    - flume+kafka+storm+redis
    - hadoop 一条龙(hadoop,spark,flink)
- 有价值的数据进行更深层次剖析推理 -> 数据挖掘
  - 个别波及算法，联合大数据构建数据模型，对将来进行预测

传统数据处理强调纵向扩大：单机性能有瓶颈
大数据处理通过网络将机器连贯在一汽形成集群，提供分布式计算和分布式存储
概念起源 google 论文
- 1-DFS：HDFS-Hadoop Distribute File Systerm
- 2-MR：MapReduce
- 3-BigTable:Hbase

须要联合本身业务，并不是所有类型业务都套大数据。ppt 公司除外
对于局部业务解决半结构化数据采纳传统的单机解决 o(n)的工夫很可能导致当天无奈失去须要的报表，影响实时性
对于超大规模数据有须要

每年对于中型 10-30 人项目组开发费用 350w(开发人员薪资按均匀 1.3w，20 人，13 薪)，搭建本人业务的前端，大数据群
硬件：多核 cpu，大容量固态硬盘 (基于分布式个别 2 份备份数据) 托管费（机位费，千兆带宽，电费维护费）对于超大型大数据我的项目，设施费甚至电费都会远超人工费用，但中型公司可能接触到整个环节，可能对于整个流程了解更加粗浅。大概评估：以 2020 年数据，400tb 存储 + 千兆带宽 +intel4 核高性能 cpu+ 保护的设施费约 60w，人工费 400w。
节约老本的办法：…. 想省钱的放弃做大数据最省钱，短期大数据的变现能力和开销是须要各个企业做深度评估的
- 基本操作：正当调配计算资源，存储资源，权限资源，业务资源
  - 存储：1. 首先要意识到咱们的数据中有大量的有效数据，要无意识的删除过期的数据，做好数据的生命周期治理与冷热拆散。2.Snappy、Gzip，能压缩 80% 的空间，3. 采纳列式存储 parquet 能够不用将整条记录检索。
  - 计算资源管理：这个是一个很大的领域，波及 dba，运维，大数据管理员
    - 硬件上：cpu,memory,network,io
    - 流程上：启动时的资源分配，磁盘异样应用的检测，超过惯例数据量 2 倍或以上时的解决，集群扩容的评估，理解集群是否有机器错误率高，是否有人为 sql 谬误导致的处理速度慢，队列治理等
  - 业务资源管理：了解业务，尽可能做到适宜业务的倒退，但无论是大数据技术还是现在的互联网需要变动都十分快，过来的技术栈可能成为将来的倒退瓶颈，需要会随着热点变动，导致过来的技术构造无奈适应，打补丁来补救

量大，数据指数级增长
数据品种多：结构化数据(mysql)，半结构化（json），非结构化数据（视频，图片，语音等）
离线批处理 -> 实时流解决
数据有价值局部小，须要采纳正当无效形式提取

关于hadoop:大数据背景

大数据背景

传统数据分析与现今大数据分析比照

为什么须要大数据，什么条件下须要大数据

到底需不需要，从公司开销角度剖析：

大数据特色 4v