共计 1502 个字符,预计需要花费 4 分钟才能阅读完成。
大家好,我是大圣。
最近公司数据方面的需要变得更多元化了,导致原有的大数据架构满足不了公司现有的需要。领导筹备降级公司的大数据平台架构,而后他把这个工作交给了我,接到这个这个工作之后,我和领导简略对接过后,也开始调研了起来。
通过十多天的致力,终于把公司的大数据平台架构给确定了下来,实现了服务器资源的评估,同时这也是本人第一次以架构师的身份去建设大数据平台,所以在这里就想给总结一下,分享给身边的小伙伴,心愿对你们有帮忙。
话不多说,上面是这篇文章的纲要
梳理现有的数据
当初有的数据次要包含以下几个局部:
这是咱们之前数据局部就曾经存在的四种数据类型,因为这这四局部数据的形象和采集也是我做的,所以我是比拟相熟的。
如果你去做大数据平台的建设的时候,你们是没有这些数据类型的,所以请大家依据本人公司的业务去总结进去应该采集的是哪些数据,然而大多数都是这几种数据起源的形象
剖析数据方面的需要
我这数据方面的需要,次要包含以下几个局部:
其实这部分就是你想用后面梳理的数据去做哪些事件,这一步通常跟你们公司具体的业务挂钩,这里就不多说了,大家本人思考就行。
大数据平台架构技术选型
先说一下大数平台架构技术选型规范:
1)业务偏差,实时,离线,还是即席查问
2)比照下以后的技术优缺点
3)技术人员的技术栈
4)运维的难易
5)服务器资源是否能撑持
6)开源社区 / 周边敌人的应用
上面来看 大数据平台技术架构图(总览)
咱们这里次要从以下几个层面去进行技术选型:
1)采集层
2)计算层
3)存储层
4)业务层
5)平台治理
6)平台调度
7)任务调度
在这里我就举个计算层的技术选型的过程来阐明:
这里的计算层次要是构建数据仓库,所以我首先剖析了市面上现有的数据仓库的类型,如下:
传统数仓架构
基于 Flink 流批一体的数仓架构
数据湖的流批一体
三种数据仓库架构的比照:
传统数据仓库(简称 P1)
基于 Flink 批流一体的数仓架构(简称 P2)
数据湖的流批一体(简称 P3)
(1)业务偏差:P3 更适合
(2)技术优缺点:P1 采纳的是 Lambda 架构,P2/P3 采纳的是一套架构
(3)技术人员的技术栈:P1
(4)运维的难易:P3 > P2 > P1
(5)开源社区:P3 > P2 > P1
其实在这一步能够依据公司数据的偏差,而后去剖析每一种架构的应用场景和优缺点,再依据后面技术选型的规范去进行抉择,这三种架构我的深层次调研过,只不过这要联合公司业务去剖析,所以在这里不不便具体说。
服务器资源的评估
服务器资源的评估能够依照以下的步骤:
1)估算一下你们有多大的数据量
2)每天数据有多少
3)数据预计保留多久
4)筹备几个备份
5)就晓得须要多少服务器了
每台机器的内存,磁盘,CPU 选型:
内存:例如你的集群运行须要多少内存,
工作计算须要多少内存,操作系统运行须要多少内存,
须要多少冗余内存,都加起来就是你的总内存。
磁盘:磁盘比拟好计算,每天的数量,三个备份,保留一年,能够算得进去。
CPU:须要依据你的计算量来大抵估算。
架构的落地
这方面当初次要落地了 CDH 的搭建,下周去了会持续落地,前面等大数据平台搭建好了,我会再持续更新。
总结
通过这一套流程下来,还是学到了很多货色的,也基本上摸清了作为一个大数据架构师应该去做哪些货色,该怎么去进行架构的选型。
其实这外面的每一步,我都去深层次的钻研了,画了很多张架构图,包含总的架构选型,每一层的架构选型。还有资源评估的过程,服务器的物理视图等,还有残缺的 PPT 等等。
然而这和公司业务与倒退有关系,所以在这里不不便具体说,只能给大家提供一个架构选型的大抵思路,如果有感兴趣的小伙伴能够关注微信公众号 大圣说编程,咱们私聊。
本文由博客一文多发平台 OpenWrite 公布!