大数据分析人才真如马云说的月薪高达30K吗

共计 2176 个字符，预计需要花费 6 分钟才能阅读完成。

作者 | 王新港
出品 | CDA 数据分析研究院

马云曾在卸任演讲的时候说过这样一段话：

“很多人还没搞清楚什么是 PC 互联网，移动互联网来了，我们还没搞清楚移动互联的时候，大数据时代又来了。”

而大数据专家埃里克·西格尔博士曾在 《大数据预测》一 书中描绘了一个 大数据时代 下的一天：

2020 年的一天，在你驱车前往公司的路上，导航系统通过预测交通流量 ，会自动帮你选择一条最合适的交通路线； 车内推荐系统会根据你的饮食习惯 预测你可能会喜欢吃什么，并推荐沿途的早餐店；你的 电子社交助理已经为你自动选择 了你可能感兴趣的社交网信息。

离埃里克博士所说的 2020 年虽然还有 3 个月左右的时间，但是书中阐述的技术如 “大数据交通技术”“个性化推荐系统”“人工智能语音助理” 等已经逐渐实现，并被人们广泛应用。而这些技术都离不开“大数据”。

Volume 大容量、Variety 多样性、Value 有价值、Velocity 速度，4 个 V 是业界普遍认定的大数据特点。那么大数据是如何改变我们的生活方式的呢？我们需要了解最重要的两个问题。即

“大数据最核心的价值是什么？”
“大数据最核心的技术是什么？”

首先，我们需要知道现代人类的衣食住行无外乎三大产业 “农业”“工业”“服务业”， 而所有产业都会从大数据的发展中受益。

农业：

大数据技术可以应用在如“土壤抽样分析”“气象统计监管”等与土壤，农作物，供应链相关的农业领域上，帮助第一产业的发展。如今国外已经有一些公司把大数据技术与农业进行落地，而在我国，农业大数据还仅仅是一个起步阶段。在未来，农民可以 “知天而作” 依靠大数据技术实现 农作物产量翻倍 ， 降低自然灾害对农产品的影响等愿景。工业：工业大数据是我国重点发展的一个方向，工业与信息化部门 一直致力于我国工业大数据的发展。如果工业产业下的各个行业与大数据可以紧密结合，对人类的生活方式的改变将是巨大的。仅仅是电力系统的配电环节，如果可以做到 基于海量用户用电特征数据分析，进而实现台区的负荷预测、用电调度、有序用电 ，将极大地优化我国电力资源的分配，实现可持续发展。 服务业：

第三产业是与人们的生活贴合最紧密的一个产业。我们从幼年到老年，教育，交通，医疗，金融 等行业或多或少都与我们生活相关，而这些行业与大数据更是密不可分。

医疗：

临床数据的采集分析，优化诊疗流程

可穿戴设备通过监测个人的行为如行走步数等改善我们的健康状况

通过大数据分析生成报告显示用户所在地区的流感活动。

交通：

智能化公交 app“车来了”

路网监控优化重点城市交通压力

电子导航即时分析道路状况，为车主调整最佳路线

物流行业的车辆，路线，网点建设

娱乐：

网易云音乐“个性化推荐”

今日头条与抖音的新闻推荐，视频推荐

《纸牌屋》演员的筛选

电信：

通过大数据平台优化网络布局，提升用户体验

记录用户在 Wifi 网络中的地理位置等数据销售给广告客户。

银行：

风控模型的建立与优化

定制化金融服务等

由于某些客观原因，相对于第一产业和第二产业来说，第三产业凭借自身的优势，大多汇聚了当前最海量的数据以及大批的科研中坚力量。而无论在哪一产业，随着计算机处理能力的日益强大，你能获得的数据量越大，你能挖掘到的价值就越多。

分布式系统：

Hadoop：作为一个开源的框架，专为离线和大规模数据分析而设计。

数据采集：

Sqoop：用来将关系型数据库和 Hadoop 中的数据进行相互转移的工具，可以将一个关系型数据库中的数据导入到 Hadoop(中，也可以将 Hadoop 中的数据导入到关系型数据库中。

数据存储，预处理：

HBase：是一个分布式的、面向列的开源数据库，可以认为是 hdfs 的封装，本质是数据存储、NoSQL 数据库。

Hql：Hibernate Query Language 的缩写，提供更加丰富灵活、更为强大的查询能力;HQL 更接近 SQL 语句查询语法。

MapReduce：Hadoop 的查询引擎，用于大规模数据集的并行计算，”Map（映射）”和”Reduce（归约）”，是它的主要思想。它极大的方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统中。

数据分析：

Hive：核心工作就是把 SQL 语句翻译成 MR 程序，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能。

Spark：拥有 Hadoop MapReduce 所具有的特点，它不需要读取 HDFS。Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

Pyspark：由 python 和 spark 组合使用，做前期数据处理速度快，还自带 mllib 可以实现一些基本的模型

建模，数据挖掘：

SparkMLlib：是 Spark 的机器学习（ML）库。其目标是使实际的机器学习可扩展和容易，同时包括相关的测试和数据生成器。Spark 的设计初衷就是为了支持一些迭代的 Job, 这正好符合很多机器学习算法的特点。

如今大数据分析的技术愈发成熟，相关的岗位也急速增加，薪水更是直线飙升，高达 30K。以下图片源自某研究社：

说明：曲线越向上代表市场需求量越大，就业情况越好。该数据由各地招聘网站统计而来，仅供参考。

https://www.cda.cn/?seo-segme…

大数据最核心的价值是什么？

大数据最核心的技术是什么？

薪资水平与行业需求

前往我们的网站或进入小程序，解锁更多优质内容和专业资讯，不要错过哟！

Just My Socks（注册教程内含优惠码）