简单来说,我们可以把大数据分析工具简单分成两个维度:
第一维度:数据存储层——数据报表层——数据分析层——数据展现层
第二维度:用户级——部门级——企业级——BI 级
1、数据存储层
数据存储涉及到数据库的概念和数据库语言, 这方面不一定要深钻研, 但至少要理解数据的存储方式、数据的基本结构和数据类型。SQL 查询语言必不可少, 精通最好。可从常用的 select 查询,update 修改,delete 删除,insert 插入的基本结构和读取入手。
Access2003. Access07 等,这是最基本的个人数据库, 经常用于个人或部分基本的数据存储;MySQL 数据库,这个对于部门 ] 级或者互联网的数据库应用是必要的,这个时候关键掌握数据库的库结构和 SQL 语言的数据查询能力;
SQL Server 2005 或更高版本,对中小企业, – - 些大型企业也可以采用 SQL Server 数据库, 其实这个时候本身除了数据存储, 也包括了数据报表和数据分析了,甚至数据挖掘工具都在其中了;
DB2,Oracle 数据库都是大型数据库了, 主要是企业级, 特别是大型企业或者对数据海量存储需求的就是必须的了, 一般大型数据库公司都提供非常好的数据整合应用平台;
BI 级别, 实际上这个不是数据库,而是建立在前面数据库基础上的,企业级应用的数据仓库。DataWarehouse,建立在 DW 级上的数据存储基本上都是商业智能平台,整合了各种数据分析, 报表、分析和展现! BI 级别的数据仓库结合 BI 产品也是近几年的大趋势。
. 在入门学习大数据的过程当中有遇见学习,行业,缺乏系统学习路线,系统学习规划,欢迎你加入我的大数据学习交流裙:251956502,裙文件有我这几年整理的大数据学习手册,开发工具,PDF 文档书籍,你可以自行下载。
2、报表层
企业存储了数据需要读取,需要展现,报表工具是最普遍应用的工具,尤其是在国内。传统报表解决的是展现问题,目前国内的帆软报表 FineReport 已经算在业内做到顶尖,是带着数据分析思想的报表,因其优异的接口开放功能、填报、表单功能,能够做到打通数据的进出,涵盖了早期商业智能的功能。
Tableau,同 FineBI 一样,可分在报表层也可分为数据展现层。FineBI 和 Tableau 同属于近年来非常棒的软件,可作为可视化数据分析软件,我常用 FineBI 从数据库中进行报表和可视化分析。相对而言,可视化 Tableau 更优,但 FineBI 又有另一种身份——商业智能,所以在大数据处理方面的能力更胜一筹。
3、数据分析层
这个层其实有很多分析工具,当然我们最常用的就是 Excel , 我经常用的就是统计分析和数据挖掘工具;
Excel 软件,首先版本越高越好用这是肯定的; 当然对 Excel 来讲很多人只是掌握了 5%Excel 功能,Excel 功能非常强大,甚至可以完成所有的统计分析工作! 但是我也常说,有能力把 Excel 玩成统计工具不如专门学会统计软件;
SPSS 软件: 当前版本是 18,名字也改成了 PASW Statistics ; 我从 3.0 开始 Dos 环境下编程分析,到现在版本的变迁也可以看出 SPSS 社会科学统计软件包的变化,从重视医学、化学等开始越来越重视商业分析, 现在已经成为了预测分析软件;
SAS 软件: SAS 相对 SPSS 其实功能更强大,SAS 是平台化的,EM 挖掘模块平台整合, 相对来讲,SAS 比较难学些,但如果掌握了 SAS 会更有价值,比如离散选择模型, 抽样问题,正交实验设计等还是 SAS 比较好用,另外, SAS 的学习材料比较多, 也公开,会有收获的!
JMP 分析: SAS 的一个分析分支
XLstat : Excel 的插件,可以完成大部分 SPSS 统计分析功能
4、表现层
表现层也叫数据可视化,以上每种工具都几乎提供了一点展现功能。FineBI 和 Tableau 的可视化功能上文有提过。其实,近年来 Excel 的可视化越来越棒,配上一些插件,使用感更佳。
PPT:办公常用,用来写数据分析报告;
Xmind& 百度脑图:梳理流程,帮助思考分析,展现数据分析的层次;
Xcelsius 软件:Dashboard 制作和数据可视化报表工具,可以直接读取数据库,在 Excel 里建模,互联网展现,最大特色还是可以在 PPT 中实现动态报表。
最后,需要说明的是,这样的分类并不是区分软件,只是想说明软件的应用。有时候我们把数据库就用来进行报表分析,有时候报表就是分析,有时候分析就是展现;当然有时候展现就是分析,分析也是报表,报表就是数据存储了!