关于java:体验了一把当架构师的感觉

38次阅读

共计 1502 个字符,预计需要花费 4 分钟才能阅读完成。

大家好,我是大圣。

最近公司数据方面的需要变得更多元化了,导致原有的大数据架构满足不了公司现有的需要。领导筹备降级公司的大数据平台架构,而后他把这个工作交给了我,接到这个这个工作之后,我和领导简略对接过后,也开始调研了起来。

通过十多天的致力,终于把公司的大数据平台架构给确定了下来,实现了服务器资源的评估,同时这也是本人第一次以架构师的身份去建设大数据平台,所以在这里就想给总结一下,分享给身边的小伙伴,心愿对你们有帮忙。

话不多说,上面是这篇文章的纲要

梳理现有的数据

当初有的数据次要包含以下几个局部:

这是咱们之前数据局部就曾经存在的四种数据类型,因为这这四局部数据的形象和采集也是我做的,所以我是比拟相熟的。

如果你去做大数据平台的建设的时候,你们是没有这些数据类型的,所以请大家依据本人公司的业务去总结进去应该采集的是哪些数据,然而大多数都是这几种数据起源的形象

剖析数据方面的需要

我这数据方面的需要,次要包含以下几个局部:

其实这部分就是你想用后面梳理的数据去做哪些事件,这一步通常跟你们公司具体的业务挂钩,这里就不多说了,大家本人思考就行。

大数据平台架构技术选型

先说一下大数平台架构技术选型规范:

1)业务偏差,实时,离线,还是即席查问

2)比照下以后的技术优缺点

3)技术人员的技术栈

4)运维的难易

5)服务器资源是否能撑持

6)开源社区 / 周边敌人的应用

上面来看 大数据平台技术架构图(总览)

咱们这里次要从以下几个层面去进行技术选型:

1)采集层

2)计算层

3)存储层

4)业务层

5)平台治理

6)平台调度

7)任务调度

在这里我就举个计算层的技术选型的过程来阐明:

这里的计算层次要是构建数据仓库,所以我首先剖析了市面上现有的数据仓库的类型,如下:

传统数仓架构

基于 Flink 流批一体的数仓架构

数据湖的流批一体

三种数据仓库架构的比照:

传统数据仓库(简称 P1)

基于 Flink 批流一体的数仓架构(简称 P2)

数据湖的流批一体(简称 P3)

(1)业务偏差:P3 更适合

(2)技术优缺点:P1 采纳的是 Lambda 架构,P2/P3 采纳的是一套架构

(3)技术人员的技术栈:P1

(4)运维的难易:P3 > P2 > P1

(5)开源社区:P3 > P2 > P1

其实在这一步能够依据公司数据的偏差,而后去剖析每一种架构的应用场景和优缺点,再依据后面技术选型的规范去进行抉择,这三种架构我的深层次调研过,只不过这要联合公司业务去剖析,所以在这里不不便具体说。

服务器资源的评估

服务器资源的评估能够依照以下的步骤:

1)估算一下你们有多大的数据量

2)每天数据有多少

3)数据预计保留多久

4)筹备几个备份

5)就晓得须要多少服务器了

每台机器的内存,磁盘,CPU 选型:

内存:例如你的集群运行须要多少内存,

工作计算须要多少内存,操作系统运行须要多少内存,

须要多少冗余内存,都加起来就是你的总内存。

磁盘:磁盘比拟好计算,每天的数量,三个备份,保留一年,能够算得进去。

CPU:须要依据你的计算量来大抵估算。

架构的落地

这方面当初次要落地了 CDH 的搭建,下周去了会持续落地,前面等大数据平台搭建好了,我会再持续更新。

总结

通过这一套流程下来,还是学到了很多货色的,也基本上摸清了作为一个大数据架构师应该去做哪些货色,该怎么去进行架构的选型。

其实这外面的每一步,我都去深层次的钻研了,画了很多张架构图,包含总的架构选型,每一层的架构选型。还有资源评估的过程,服务器的物理视图等,还有残缺的 PPT 等等。

然而这和公司业务与倒退有关系,所以在这里不不便具体说,只能给大家提供一个架构选型的大抵思路,如果有感兴趣的小伙伴能够关注微信公众号 大圣说编程,咱们私聊。

本文由博客一文多发平台 OpenWrite 公布!

正文完
 0