前言
如何实现一个通用的可视化中间件(关系图方向)在上篇文章中笔者解说了如何实现一个可视化中间件(偏差可视化方向),本篇文章将会中小型企业在数据分析方面如何低成本·高可用的做一次技术架构调整。欢送在留言中提出宝贵意见。
另外提前阐明:本次技术架构针对于动态式关系型剖析平台(>数据update
频率低,数据量大,关联性密集)
本篇文章能为你带来什么?
- 数据分析的整体流程介绍
- 数据分析一种技术架构介绍
- 技术可行性以及如何技术落地,产品/我的项目落地
一:数据分析的整体流程?
请看示意图:
数据分析流程文字介绍:
- 数据采集:首先不同业务数据须要制订不同数据模板(也就是数据规范例如:通勤数据字段蕴含缺勤人,缺勤工夫,缺勤地点等等)而后数据资源来了套用模板就是数据收集。为保证数据资源可回溯性,可建设采集数据库进行保留
- 数据整顿:数据起源并不是全副理想化,所以须要进行数据的解决(例如 数据补全,异样数据荡涤,模型计算运行后果字段存储等) 好的数据处理能够为接下来的工作省去很大精力.
- 数据分析:数据分析采取表格可视化图组件联合剖析,首先表格性能须要齐备(多表联合剖析,表格数据详情,其余交互体验),接下来可视化交互(遵循齐备交互,简略易用,扩大灵便去设计落地)俩者应该无缝交融剖析(产品设计角度,技术架构角度等等)
- 剖析论断:数据分析后果已报告的模式进行结尾(交互式报告相似ppt那种酷炫的剖析报告相比拟富文本DOC文档那齐全是俩种体验),笔者也在欠缺中(= =;)
二: 数据分析一种技术架构介绍
请看示意图:
数据分析轻量级技术架构方向文字介绍:
- 数据起源.采集数据资源格局xlsx,xls,csv等等,只须要留神采取文件大小,文件表头获取,导入效率等惯例问题
- 采集库/剖析库(不排除应用同库的状况):数据存储不同企业采取的形式可能不太统一,图中只列举了俩种当然还有mongoDB其余一些关系型数据库作为存储。此架构能够不做调整,但须要标准数据规范不便后续图库同步。
- 图库:上文提到update操作频率很低能够选取文件存储,存储形式:点表(可依据点类型分表,维度存储增加字段即可须要和采集剖析库进行mapping过程 字段对字段),边表(点与点的关系类型分表)。
- 服务端:node可进行schema构建(实体与实体的业务关系)mapping构建(采集剖析库与图库的字段映射关系)以及构建图的性能(读取点表,边表从而构建图 能够采取压缩稠密矩阵形式也能够存为长期后果集防止构建过程[工夫耗费能够忽略不计])业务性能开发,python可进行模型开发(须要模型调度问题,同步异步什么机会触发等等)
- 前端:采取vue进行产品交互性能开发(包含它的生态圈) 可视化性能能够采取d3js(针对于relation graph方面) 留神渲染原理canvas和svg正当使用
三:技术可行性以及如何技术落地,产品/我的项目落地
- 技术可行性,技术计划已落地与几个我的项目 临时没有异样呈现。(该技术计划出发点是轻量级,静态数据剖析)
技术落地:
- 人员配比:1个算法,1个前端,1个可视化,1个后端,1个模型算法,1个产品。
- 调整: 架构师,DBA等进行数据规范对立
- 产品落地可行性视企业业务而定
写在最初
针对于数据分析方面笔者打算写系列文章心愿帮忙大家!
以下方面
1:数据库方面(关系型,图等)
2:服务端层面
3:模型计算层面(业务模型训练不做具体分析)
4:可视化层面
5:交互层面
===================================
思考到目前社区可视化相干技术分享比拟少以及笔者侧重于该方面,先从可视化方面介绍,介绍流程如下:
可视化技术架构 ====> 技术选型 =====> 技术落地(如何利用到产品/我的项目) ==== > 具体案例实现(打算选取现有可视化框架[D3js echartsjs GOjs G6js等等]实现几个例子)
==================================
目前笔者从事大数据分析畛域(侧重于可视化方向),近期也会把一些技术计划和一些技术细节在此分享。(保障更新效率和文章品质)心愿对大家有所帮忙。最初有大数据分析需要的企业(老板)能够分割一下笔者.目前这边有较欠缺的团队,前沿的技术.有信念服务好每一个客户!