再和很多想进入数据科学行业的小白们聊天的时候,在谈到为什么要进入这个行业的时候,他们都认为未来,将会是数据为王的时代,他们之中有很多已经工作多年已经了解到行业内数据的发展变化,有一些是还处于校园内,通过各种方式也是看到了未来的大数据时代的方向。他们普遍的认为随着技术的发展,在不远的未来,数据将成为主导各行业发展的前提,通过数据分析客户的行为,来更好的为客户去进行定制化服务。那么在这个逐渐逼近的大数据的时代下,单个的人如何去适应这股浪潮以及如何在这股浪潮下去选择前进的方向,也是他们在不断的前进中迷茫了方向的原因。
今天我们从多个方面的发展,看一下大数据这股浪潮的起源,并探讨一下大数据时代浪潮是如何发展起来的,以及在大数据时代下,我们个人如何是否要选择进入这股浪潮,并在这股席卷全球的浪潮中,分析各个行业的要求与发展,选择适合我们个人的岗位,让那些还在迷茫状态下的人早点认识到自己前进的方向,毕竟这不是一个大鱼吃小鱼的时代,而是一个快鱼吃慢鱼的时代,随着一股股浪潮的袭来,只有快速的掌握好方向,才能防止自己被吃掉,并且可以不断的壮大自己,不止是各行业内的企业,个人也是一样。
从 Excel 到人工智能 - 数据可追溯的发展阶段
第一阶段:KDD(Knowledge Discovery in Database)
KDD 流程是指从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程代表了在关系型数据库积累了部分数据之后,人们对数据利用的一种原始构想。代表工具:结构化数据语言(SQL)
第二阶段:数理统计分析
数理统计分析是指利用小样本,进行描述性统计分析,即数理统计推断等工作,是一个从数学原理、统计学原理向外求印证的过程代表了人们开始将复杂数学原理应用于数据库中数据进行分析的初步尝试
上图是将统计分析落实到数据空进行数理统计分析的阶段
数理统计算法的一般特点
- 数理统计算法—所谓数理统计学方法,是指在低维、少量样本下对数据进行离线批处理的、从数学原理出发向外求进行印证的一系列算法。
- 舍恩伯格曾在《大数据时代》中断言:随着“全样本”的出现,真对低维、少量样本的数理统计学方法将逐渐失去其价值,其实现在看来,并非如此。
- 随着数据价值被更加普遍的认识,越来越多的算法尝试、更多算法在更广阔空间内的价值被挖掘,数理统计算法就是其中典型之一。
第三阶段:机器学习
机器学习的定义有两个,一个是经典定义一个是通俗的定义。
经典的定义是:一个计算机程序可以从经验 E 中学习某些类型的任务 T 和性能度量 P,并且它在任务 T 中的性能 (用 P 度量) 随着经验 E 的提高而提高。原文为:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E。
通俗的定义来自湖畔大学教育长、阿里集团学术委员会主席曾鸣的《商业智能 20 讲》,认为机器学习,其实是机器用笨办法去算,它的所谓学习是通过概率论的方法,不断地去通过正反馈来优化结果,而不是像人一样去思考学习
大数据时代
现在我们已经处在一个大数据的时代,这个时代是以创造更大的社会价值为核心需求为驱动,并且数据、算法、计算能力这三个方面的都有所发展,有所突破的情况下,驱动彼此,这三方面相互促进,协同发展,并且伴随着大数据时代标志的来临。下面我们探讨一下,有关数据、算法、计算能力这三个方面,近些年的发展突破。
数据层的突破
数据层的突破主要是伴随着数据从结构化到非结构化、数据列由小到大、数据维度从低到高而进行的突破。
- 运营式系统阶段:
- 数据库的出现使得数据管理的复杂度大大降低, 数据往往伴随一定的运营活动而产生并记录在数据库中, 数据的产生方式是被动的
- 用户原创内容阶段:
- 数据爆发产生于 Web2.0 时代, 而 Web2.0 的最重要标志就是用户原创内容,智能手机等移动设备加速了内容产生,以及数据产生方式都是主动的
- 感知式系统阶段
- 感知式系统的广泛使用是人类社会数据量第三次大的飞跃并且最终导致了大数据的产生
信息技术以及计算能力的突破
信息技术以及计算能力的突破主要是以存储容量、网络宽带及 CPU 计算能力为核心一系列的突破
存储设备容量的不断增加
网络宽带的不断提高
以 Apache Hadoop 为核心的分布式集群的诞生极大的提高了单价所能买到的计算性能,同时,以云计算为代表的一系列技术进一步提高了计算资源的可获取性。
分布式算法执行
分布式算法执行是借助分布式集群、Hadoop 生态进行算法执行,这就是典型的使用者创造工具,而工具将反过来影响使用者。
分布式算法执行的一些优点:
- 通过利用分布式的存储、计算框架,完美解决分析过程中数据量大、中间结果多,无法单机运行等问题。
- 能够直接嵌入产品,从而加快产品开发过程。
- 可以进行流式处理,用户可较为快速得到响应,并在第一时间予以回复,从而缩短了算法得到反馈、建立闭环的时间,加快了算法迭代速度。
- 利用 MLlib 和 systemML,使得算法开发相对独立、算法使用相对灵活,通过建立机器学习流,提高算法复用率,极大程度简化调参过程,加快了算法开发效率。
算法的突破
算法的突破是从 KDD 到数据挖掘的突破,在到现在的从机器学习到深度学习的突破。
数据层的突破导致了算法适用面的多样化,计算机计算能力的提升则进一步导致了算法设计层面的突破,而持续不断的数据分析需求及社会对于数据分析的期望度,则进一步加快了算法的迭代速度。
第四阶段:人工智能
根据中国 18 年颁发的《人工智能标准化白皮书》中对人工智能的定义对人工智能学科的基本思想和内容作出了解释,即围绕智能活动而构造的人工系统,人工智能是知识的工程,是机器模仿人类利用知识完成 一定行为的过程。获得最佳结果的理论、方法、技术以及应用系统的最好方法就是通过感知环境来获取知识并使用知识,转换到人工智能中就是数字计算机通过数据计算机控制的机器来模拟、延伸、扩展人的智能。
同时人工智能又可以分为两种:弱人工智能和强人工智能
弱人工智能是值不能真正实现推理和解决问题的智能机器,这些机器表面看像是智能的,但是并不真正拥有智能,也不会有自主意识。目前的主流研究仍然集中于弱人工智能,并取得了显著进步如语音识别、图像处理和物体分割、机器翻译等方面取得了重大突破,甚至可以接近或超越人类水平。
强人工智能是指真正能思维的智能机器,并且认为这样的机器是有知觉的和自我意识的,这类机器可分为类人与非类人两大类,从一般意义来说,达到人类水平的、能够自适应地应对外界环境挑战的、具有自我意识的人工智能称为“通用人工智能”、“强人工智能”或“类人智能”
人工智能的发展阶段可以分为三部分:
- 第一阶段:20 世纪 50 年代——80 年代
- 这一阶段人工智能刚诞生,但由于很多事物不能形式化表达,建立的模型存在一定的局限性
- 第二阶段:20 世纪 80 年代——90 年代末
- 这一阶段专家系统得到快速发展,数学模型有重大突破,但由于专家系统在知识获取等方面的不足,人工智能的发展又一次进入低谷期
- 第三阶段:21 世纪初——至今
- 在这一阶段随着大数据的积聚、理论算法的革新、计算能力的提升,人工智能在很多应用领域取得了突破性进展,迎来了又一个繁荣时期
人工智能的到来
目前人工智能的三次亮相可以视作每一代人工智能的分界线,这三次亮相分别的 IBM 的深蓝、Google 的 AlphaGo 和 AlphaGo Zero。
深蓝:人工智能的第一次高调亮相
第一代人工智能是基于规则创造的智能,经典的代表就是深蓝,1997 年 5 月 11 日美国IBM公司研制的并行计算机“深蓝”击败了雄踞世界棋王宝座 12 年之久的卡斯帕罗夫。但是国际象棋每一步的选择以及应对对手某一特殊步骤的最有方案是确定的,只要足够多的定性棋谱以及足够大的计算速度,就能够在对手走任何一步的时候准确判断出下一步应该如何走,就本质上而言,1997 年的深蓝是基于规则的人工智能,深蓝本身并不会创造新的战略战术。
震惊世界的 AlphaGO
第二代人工智能是能够自主学习的人工智能,AlphaGo 就是第二代人工智能的代表,在 2016 年 3 月 9 日到 15 日,阿尔法围棋程序挑战世界围棋冠军李世石的围棋人机大战五番棋在韩国首尔举行。比赛采用中国围棋规则,最终阿尔法围棋以 4 比 1 的总比分取得了胜利。当消息放出时,世界一遍哗然当时全世界都在讨论人工智能是否要打败人类并且在猜测这会不会是未来天网的开始,但是还有一小部分人不认为人工智能可以打败人类,因为李世石的围棋水平并不是围棋界最顶尖的水平,直到下一次比赛的结果传出。
2017 年 5 月 23 日到 27 日,在中国乌镇围棋峰会上,阿尔法围棋以 3 比 0 的总比分战胜排名世界第一的世界围棋冠军柯洁。在这次围棋峰会期间的 2017 年 5 月 26 日,阿尔法围棋还战胜了由陈耀烨、唐韦星、周睿羊、时越、芈昱廷五位世界冠军组成的围棋团队。当这个结果产生的时候,人工智能可以代替人类这件事已经不置可否了,人工智能在智力上击败了人类,已经说明了人类在自己最擅长的领域输给了机器,只是下一次人工智能再次发展的时候,人类的结局会怎么样就不得而知了。
悄无声息的超越 -AlphaGo Zero
当数据变为无限的时候,世界将会变成什么样子。与 AlphaGo 对战并百战百胜的 AlphaGo Zero。2017 年 10 月 19 日,谷歌 DeepMind 团队在 Nature 发表论文,以《Mastering without human knowledge》为名,详细介绍了没有再用人类历史棋局作为训练样本,训练过程从随机开始,通过左右互搏精进棋艺,最终以 100:0 战胜了 AlphaGo 的 AlphaGo Zero。这场较量并没有被人们所了解,只是在圈子内传播开来。
数据科学技术特点
来自 MIT 经济学教授艾瑞克. 布莱恩. 杰弗森的观点认为普遍性技术(GPT)的构成有三点:
- 扩散性:在很多行业内得到普遍应用,且引发很多行业的突破,如蒸汽机
- 改进性:随着技术发展,会迅速进行不断的自我改进,如电脑的摩尔定律
- 连锁创新性:每到一个行业,就创造新的生产过程、新的商业模式,如互联网
所有的重大的技术突破,由于对整个社会的影响力巨大,甚至可能会需要整个社会进行重新组织,来适应这种技术。
大数据时代下个人的选择
有关重大技术突破对行业进行影响时,最直观的就是行业岗位的爆发式增长,那么接下来我们就行业岗位上的变化情况来讨论一下行业的发展。
岗位需求薪资分析
岗位需求基本情况
业务数据分析人才需求较大,数据挖掘、大数据分析人才需求较少
人才经验要求
人才从业经验来看,大多数的公司对经验并没有太大的要去,其次是 1 - 3 年的相关工作者从业经验的需求较大。
人才学历要求
人才的学历要求目前来说本科与专科的需求量较大。
岗位 / 工作经验关系(岗位对工作经验要求情况)
不同的岗位经验需求结构不同,数据挖掘岗位对工作要求经验最高,随之而来的是数据分析与大数据分析岗位。
岗位 / 学历关系(岗位对学历的要求)
大数据、数据挖掘岗位对工作学历的要求最高
不同经验 / 学历要求的月薪比较
学历越高薪资越高,经验越久薪资越高
不同行业的平均月薪情况
结合第四第五节可以分析出,互联网、IT、网络游戏、咨询、金融、通信行业能够提供更高的薪酬,但对数据分析者要求也越高。
不同岗位经验薪资的比较
数据挖掘岗位的工作经验最高,岗位薪资也是最高的。
不同岗位学历薪资的比较
数据挖掘岗位中博士学历的岗位薪酬是最高的。
不同经验 / 学历要求的月薪比较
学历越高薪酬越高,经验越久薪酬越高
基本结论
从上边的分析中我们可以看出目前行业正处在爆发增长期,人才处于供不应求状态,专业技能人才缺口额度巨大,行业整体门槛较低。对于薪资待遇来讲,是否掌握核心技术与工作经验仍然是影响薪资待遇最核心因素,就平 均薪酬而言,处于整个 IT 行业上游。而对于核心需求技能来说数据分析仍然是需求量最大的工作岗位,其岗位定位在整个数据科学体系的最基层,数据分析技能也是入行的必修课。
行业发展阶段
目前行业的发展阶段一般分为五个阶段:
- 探索期:行业核心技术刚刚诞生,前景尚不明朗,科研结果还处在实验阶段
- 起步期:少部分人认定该技术将改变世界,并且孜孜不倦、不求回报为之付出,该阶段持续时间最长,也有很多技术在起步期夭折
- 爆发期:行业技术高调亮相公众视野,发展前景被广泛认可,越来越多人投身该行业,大势已成,但发展过程仍然可能有波折
- 成熟期:行业进入稳定发展阶段,行业规则逐渐清晰且行业岗位趋于饱和,行业门槛逐渐增加
- 衰落期:行业发展前景不再被广泛认可,核心技术面临替代,行业内企业被迫面临转型
第三次信息化浪潮的到来
根据 IBM 前首席执行官郭士纳的观点,整个 IT 行业发展大概每年 15 年就会迎来重大变革,也就是信息化浪潮,而每次信息化浪潮来临,都会诞生一批将在日后成为行业巨头的企业
信息化浪潮
发生时间
标志
解决问题
代表企业
第一次浪潮
1980 年前后
个人计算机
信息处理
Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等
第二次浪潮
1995 年前后
互联网
信息传输
雅虎、谷歌、阿里巴巴、百度、腾讯等
第三次浪潮
2010 年前后
物联网、云计算和大数据
信息计算
将涌现出一批新的市场标杆企业
行业创业的窗口期永远在行业起步阶段,而就个人从业来讲最佳的时机则是行业的爆发期。
在行业的快速发展期间入职的优势如下:
- 能够有一个相对较低的行业门槛
- 一份不错的薪资待遇
- 和行业共同成长的机会
- 摘取低垂之果,在行业内有所建树
- 实现个人人生理想
目前数据科学领域正在快速的发展中,现在如果想进入这个领域应该是最好的时机,如果已经打算进入这股潮流,那么就需要具备相应的知识,那么希望通过这篇文章,让你明白是否想要进入这个行业。