共计 1418 个字符,预计需要花费 4 分钟才能阅读完成。
大数据背景
我认为大数据的相干不应仅仅局限于技术了解,更应对于其背景有深度的剖析,能力更好使用技术结合实际,充沛浏览了许多材料之后,总结下来有以下几点,大数据也基于以下造成三个历史过程
剖析需要,数据收集存储 => 数据处理,剖析 => 利用:如报告,展现- 5g,挪动利用衰亡,各行业互联网化产生大量数据 -> 数据采集起源(日志,数据库,爬虫)
企业对于大量数据荡涤筛选有价值信息有较高的要求,有较高的实时剖析需要 -> 数据分析
采集和简略剖析罕用生态有
- elk 生态(elasticsearch+fileBeats+Logstash+Kibana(帆软)) 本局部我将会在后边做详细描述
- flume+kafka+storm+redis
- hadoop 一条龙(hadoop,spark,flink)
有价值的数据进行更深层次剖析推理 -> 数据挖掘
- 个别波及算法,联合大数据构建数据模型,对将来进行预测
传统数据分析与现今大数据分析比照
- 传统数据处理强调纵向扩大:单机性能有瓶颈
- 大数据处理通过网络将机器连贯在一汽形成集群,提供分布式计算和分布式存储
概念起源 google 论文
- 1-DFS:HDFS-Hadoop Distribute File Systerm
- 2-MR:MapReduce
- 3-BigTable:Hbase
为什么须要大数据,什么条件下须要大数据
- 须要联合本身业务,并不是所有类型业务都套大数据。ppt 公司除外
- 对于局部业务解决半结构化数据采纳传统的单机解决 o(n)的工夫很可能导致当天无奈失去须要的报表,影响实时性
- 对于超大规模数据有须要
到底需不需要,从公司开销角度剖析:
- 每年对于中型 10-30 人项目组开发费用 350w(开发人员薪资按均匀 1.3w,20 人,13 薪),搭建本人业务的前端,大数据群
- 硬件:多核 cpu,大容量固态硬盘 (基于分布式个别 2 份备份数据) 托管费(机位费,千兆带宽,电费维护费)对于超大型大数据我的项目,设施费甚至电费都会远超人工费用,但中型公司可能接触到整个环节,可能对于整个流程了解更加粗浅。大概评估:以 2020 年数据,400tb 存储 + 千兆带宽 +intel4 核高性能 cpu+ 保护的设施费约 60w,人工费 400w。
节约老本的办法:…. 想省钱的放弃做大数据最省钱,短期大数据的变现能力和开销是须要各个企业做深度评估的
基本操作:正当调配计算资源,存储资源,权限资源,业务资源
- 存储:1. 首先要意识到咱们的数据中有大量的有效数据,要无意识的删除过期的数据,做好数据的生命周期治理与冷热拆散。2.Snappy、Gzip,能压缩 80% 的空间,3. 采纳列式存储 parquet 能够不用将整条记录检索。
计算资源管理:这个是一个很大的领域,波及 dba,运维,大数据管理员
- 硬件上:cpu,memory,network,io
- 流程上:启动时的资源分配,磁盘异样应用的检测,超过惯例数据量 2 倍或以上时的解决,集群扩容的评估,理解集群是否有机器错误率高,是否有人为 sql 谬误导致的处理速度慢,队列治理等
- 业务资源管理:了解业务,尽可能做到适宜业务的倒退,但无论是大数据技术还是现在的互联网需要变动都十分快,过来的技术栈可能成为将来的倒退瓶颈,需要会随着热点变动,导致过来的技术构造无奈适应,打补丁来补救
大数据特色 4v
- 量大,数据指数级增长
- 数据品种多:结构化数据(mysql),半结构化(json),非结构化数据(视频,图片,语音等)
- 离线批处理 -> 实时流解决
- 数据有价值局部小,须要采纳正当无效形式提取
正文完