关于hadoop:大数据背景

38次阅读

共计 1418 个字符,预计需要花费 4 分钟才能阅读完成。

大数据背景

  • 我认为大数据的相干不应仅仅局限于技术了解,更应对于其背景有深度的剖析,能力更好使用技术结合实际,充沛浏览了许多材料之后,总结下来有以下几点,大数据也基于以下造成三个历史过程
    剖析需要,数据收集存储 => 数据处理,剖析 => 利用:如报告,展现

    • 5g,挪动利用衰亡,各行业互联网化产生大量数据 -> 数据采集起源(日志,数据库,爬虫)
    • 企业对于大量数据荡涤筛选有价值信息有较高的要求,有较高的实时剖析需要 -> 数据分析

      • 采集和简略剖析罕用生态有

        • elk 生态(elasticsearch+fileBeats+Logstash+Kibana(帆软)) 本局部我将会在后边做详细描述
        • flume+kafka+storm+redis
        • hadoop 一条龙(hadoop,spark,flink)
    • 有价值的数据进行更深层次剖析推理 -> 数据挖掘

      • 个别波及算法,联合大数据构建数据模型,对将来进行预测

传统数据分析与现今大数据分析比照

  • 传统数据处理强调纵向扩大:单机性能有瓶颈
  • 大数据处理通过网络将机器连贯在一汽形成集群,提供分布式计算和分布式存储
  • 概念起源 google 论文

    • 1-DFS:HDFS-Hadoop Distribute File Systerm
    • 2-MR:MapReduce
    • 3-BigTable:Hbase

为什么须要大数据,什么条件下须要大数据

  • 须要联合本身业务,并不是所有类型业务都套大数据。ppt 公司除外
  • 对于局部业务解决半结构化数据采纳传统的单机解决 o(n)的工夫很可能导致当天无奈失去须要的报表,影响实时性
  • 对于超大规模数据有须要

到底需不需要,从公司开销角度剖析:

  • 每年对于中型 10-30 人项目组开发费用 350w(开发人员薪资按均匀 1.3w,20 人,13 薪),搭建本人业务的前端,大数据群
  • 硬件:多核 cpu,大容量固态硬盘 (基于分布式个别 2 份备份数据) 托管费(机位费,千兆带宽,电费维护费)对于超大型大数据我的项目,设施费甚至电费都会远超人工费用,但中型公司可能接触到整个环节,可能对于整个流程了解更加粗浅。大概评估:以 2020 年数据,400tb 存储 + 千兆带宽 +intel4 核高性能 cpu+ 保护的设施费约 60w,人工费 400w。
  • 节约老本的办法:…. 想省钱的放弃做大数据最省钱,短期大数据的变现能力和开销是须要各个企业做深度评估的

    • 基本操作:正当调配计算资源,存储资源,权限资源,业务资源

      • 存储:1. 首先要意识到咱们的数据中有大量的有效数据,要无意识的删除过期的数据,做好数据的生命周期治理与冷热拆散。2.Snappy、Gzip,能压缩 80% 的空间,3. 采纳列式存储 parquet 能够不用将整条记录检索。
      • 计算资源管理:这个是一个很大的领域,波及 dba,运维,大数据管理员

        • 硬件上:cpu,memory,network,io
        • 流程上:启动时的资源分配,磁盘异样应用的检测,超过惯例数据量 2 倍或以上时的解决,集群扩容的评估,理解集群是否有机器错误率高,是否有人为 sql 谬误导致的处理速度慢,队列治理等
      • 业务资源管理:了解业务,尽可能做到适宜业务的倒退,但无论是大数据技术还是现在的互联网需要变动都十分快,过来的技术栈可能成为将来的倒退瓶颈,需要会随着热点变动,导致过来的技术构造无奈适应,打补丁来补救

大数据特色 4v

  • 量大,数据指数级增长
  • 数据品种多:结构化数据(mysql),半结构化(json),非结构化数据(视频,图片,语音等)
  • 离线批处理 -> 实时流解决
  • 数据有价值局部小,须要采纳正当无效形式提取
正文完
 0