关于数据科学:数据科学的起源与发展

本文由 PieCloudDB Database 社区成员美国南加州大学陈振宇参加奉献。

现如今，当人们被问到什么学科最火爆，就业率最高时，”数据迷信”想必肯定是其中的一个答案。《哈佛商业评论》曾一度将“数据科学家”这一职业评为 21 世纪最性感的工作（“Data Scientist: The sexiest job of the 21th century”– Harvard Business Review）。近年来，随着可用的数据量日益激增，数据挖掘和剖析给企业带来了微小的经济效应，数据迷信畛域也失去了蓬勃的倒退。各行各业掀起了对数据科学家的招聘浪潮，越来越多的大学设立了数据迷信相干学科来满足社会需要。在数据迷信成立之前，数据钻研始终都是学术统计学畛域的工作，通过数据建模来对某种景象进行推论。随着数据的倒退，越来越多的人发现数据自身的价值，通过对数据的剖析和利用，咱们能够解决许多生存中的理论问题，而不仅仅是停留在学术实践的钻研。第一个提出对传统统计学进行改革的吹哨人是 John W. Tukey，他发表的文章《The Future of Data Analysis》始终被人们看做是数据迷信的起源。

John W. Tukey 是 20 世纪美国驰名的统计学家。早在六十多年前，他就曾呐喊学术统计学家们缩小对统计实践的关注，转而重视统计学的理论利用，其中最重要的局部就是对数据的解决和剖析。1962 年，他发表的《The Future of Data Analysis》文章震惊了过后的统计学界。他提出了数据分析（Data Analysis）这一新迷信和其将来倒退的可能性，并预言冲破数理统计学边界的数据时代将会到来。在文章中，他指出数据分析的目标是通过对数据的收集、解决和剖析来学习数据中的信息，解决咱们生存中所遇到的理论问题。

《The Future of Data Analysis》这篇文章为将来数据迷信的倒退奠定了根底。John W. Tukey 对该畛域的趣味与他的人生经验非亲非故。1939 年，Tukey 顺利地取得普林斯顿大学数学硕士学位和博士学位。在研究生期间，他次要从事数学方面的钻研工作。然而随着二战的到来，他开始关注解决国家所面临的理论问题。1941 年 5 月，Tukey 退出了普林斯顿大学设立的火控研究室（Fire Control Research Office）。在研究室工作期间，Tukey 与工程师 Charlie Winsor 结识，并与多位统计学家深入探讨。最终通过数据分析，Tukey 和他的团队帮助美国在二战期间优化了其武器管理系统，他也因而对这种数学模式产生了浓重的趣味。

在 John W. Tukey 发表了《The Future of Data Analysis》之后的几十年里，数据迷信畛域并没有设想中那般疾速地倒退，其次要的起因有 3 点：

绝大部分的统计学家都否定这门新的迷信，认为他们当初所做的工作与数据迷信的形容毫无区别；
计算机及显示器等软硬件根底设施还没有倒退到足够的境地；
数据的体量太小，没有体现出数据迷信的重要性和与统计学的差异。

但随着互联网的遍及，数据指数倍的快速增长使越来越多的统计学家们意识到数据迷信的重要性，在诸多如 John Chambers、C. F. Jeff Wu 等驰名统计学家的致力下，数据迷信最终突破了传统统计学的边界，在其倒退历史上留下了以下重要的人物与事件：

1993 年，John Chambers 在意识到统计学不能再只关注于传统推论后，发表了题为《Greater or Lesser Statistics: A Choice for Future Research》的论文，呐喊统计学畛域学者对传统统计学的改革。在文中，Chambers 指出传统统计学业余在将来的钻研中将面临两种抉择：

“更专有”（“Lesser”）：数学技巧为主导，专一于传统课题和数学自身，以学术研究为主，与其余相干学科交换较少；
“更容纳”（“Greater”）：从数据中学习，兼收并蓄，以利用为主，与其余相干学科交换频繁。

Chambers 指出“更容纳”尽管充斥了挑战，但会带来更多的时机；而“更专有”则有可能使传统统计学钻研变得越来越边缘化。因而 Chambers 呐喊要突破传统统计学的边界，更多地专一于数据自身，正视数据分析实质上是一种基于教训的迷信。

1993 年，Robert Gentleman 和 Ross Ihaka 基于 S 语言胜利地开发了 R 语言，将其开源，使 R 失去了迅速地流传。R 脚本能够具体记录撰写者数据处理的代码逻辑，社区用户可下载并运行被分享的脚本，节俭自行开发的工夫和精力，让这些代码逻辑能够在本人的数据上产生价值。因而，R 语言的入世对数据分析产生了微小的影响，它彻底改变了人们对剖析数据、解决数据和可视化数据的形式。R 的数据结构包含向量、数列、列表和数据框架。其衍生出的各种库让 R 可能实现对各种统计的实践概念的利用，其中包含：

线性、狭义线性和非线性模型
经典统计测验
空间和工夫序列剖析
分类模型
聚类模型

另一位对数据迷信的倒退做出了杰出贡献的是驰名的利用统计学家 C. F. Jeff Wu。1997 年，Wu 被聘为美国密歇根大学统计系传授。他曾在一次名为“Statistics = Data Science？”（《统计学 = 数据迷信？》）的演讲中将过后定义的「统计学工作内容」形容为：数据收集、数据建模与剖析和洞察与决策三部曲，并提出了他对将来统计学倒退方向的瞻望，呐喊将统计学重新命名为数据迷信。

2001 年，加州大学伯克利分校的统计学家 Leo Breiman 发表了一篇题为《Statistical Modeling: The Two Cultures》的文章。这篇文章指出过后的统计学界对于数据建模造成的两种不同的文化，这也是统计学与数据迷信之间最实质的差别：

数据建模文化 – 推断（Inference）：寻求建设适宜数据的随机模型，而后依据这些模型的构造对数据的生成机制进行推断。
算法建模文化 – 预测（Prediction）：不对数据的生成机制进行解释，而是容许多种预测算法，而后对不同算法在不同数据集上做出的预测的准确性进行探讨。

Breiman 指出，98% 的统计学家崇尚数据建模文化，即通过数据建模去进行因果推断；只有 2% 的统计学家致力于算法建模，通过数据分析来进行预测，进而解决事实中的问题。因而，Breiman 示意这种状况造成了统计学家们消耗大量精力钻研很多无关紧要的实践和存疑的论断，妨碍了他们去接触更有事实价值的问题。

同一年，William S. Cleveland 发表了一篇题目为《数据迷信：拓展统计学技术畛域的行动计划》的文章。在文中，Cleveland 提出了数据迷信的 6 个焦点，即便站在当下，这 6 个焦点也为学习数据迷信这个畛域提供了一个很好的概念框架：

多学科学术研究 (25%)
数据的模型和办法 (20%)
数据的计算 (15%)
教学 (15%)
工具评估 (5%)
实践 (20%)

数据迷信的倒退始终以来都与计算机领域严密相连。从 1962 年至今，数据迷信始终都只停留在概念和实践层面。随着 21 世纪计算机领域的突飞猛进，数据迷信的实践在一些数据软件工具中得以利用。因而，数据迷信不仅要求咱们把握统计学中的理论知识来剖析数据，同时还须要熟练地使用如 Python、SQL、C++、Java 等编程语言来解决数据、建设模型以及实现可视化等。

如果说 R 语言奠定了数据迷信根底，扭转了传统的数据分析形式，那么 Python 的呈现则拓展了数据迷信的潜能。不久前，TIOBE 公布了最新的编程语言排行榜，Python 再次夺得了排行榜的榜首。作为近年来最炽热的编程语言，Python 不仅容易学习，且利用极其宽泛。在各种成熟的第三方库反对下，Python 成为了弱小、高效的计算工具。除此之外，Python 作为一个连接器，它可能连贯、调取、并且应用各种数据库的资源，如 Pandas，Scikit-Learn，TensorFlow 等。因而，Python 失去了泛滥数据科学家的追捧。在 2019 年，大概有 65.8% 的数据科学家称他们在应用 Python，这无疑是一个宏大的比率，并且这个数字还在持续增长。接下来，让咱们来看看有哪些重要的库次要疏导了数据迷信畛域倒退到现在的规模。

对于数据科学家来说是一个不可或缺的数据处理工具。NumPy 是 Numerical Python 的缩写，专门用来解决矩阵数据。它的次要钻研对象是同种元素的多维数组，并且运算效率远高于列表，可能让数组和矩阵的解决更加天然。同时 NumPy 库中蕴含大量实用的数学函数用以反对各种简单的如线性代数、随机数生成等函数。

在日常的数据分析过程中，数据荡涤的工作是不可或缺的环节。Pandas 作为一个弱小的数据处理第三方库，不仅可能对数据进行各种解决，还可能实现可视化、简单统计以及与各种数据库交互等性能，因而，Pandas 是数据科学家们使用率最高的库之一。Pandas 的根本数据类型一共有两种：

Series：单列多行的模式
Dataframe：多行多列的模式

Matplotlib 是 Python 专门的一个数据可视化工具库，它可能绘制多种类型的图表和高级图形。Matplotlib 应用起来非常简略不便，只须要几行代码便能够生成直方图、条形图、散点图等。

Scikit-Learn 我的项目最早于 2007 年，由数据科学家 David Cournapeau 基于 Python 语言发动的一款专门针对机器学习的开源框架，依靠于 NumPy、Scipy 等几种工具库来实现大量机器学习的模型。Scikit-Learn 的算法次要分为四类：

回归算法
分类算法
聚类算法
降维算法

TensorFlow 是 Google 开发的一款应用数据流图进行数值计算的开源库，次要用于深度学习。TensorFlow 承受高维度的多维数组模式的数据来训练和使用深度神经网络，并能疾速解决大量数据。在数据迷信的倒退过程中，越来越多的科学家和编程专家退出了数据相干畛域的钻研中，许多成熟、简单的统计学概念以程序语言的模式失去了开发和使用。这个过程中衍生出了各式各样以数据开发利用为核心的新型代码库，大家若有趣味可自行查阅。

21 世纪初，大数据时代未然降临，一些科技公司，如 Google、Facebook 积攒了大量的原始数据 (raw data)。尽管硬盘贮存数据的容量失去了显著的晋升，但在数据的读取速度能力上却止步不前。因而，这些公司急于摸索一种新的模式去高效地解决宏大的数据体量。2005 年，计算机科学家 Doung Cutting 和 Mike Cafarella 独特研发了开源的软件框架 Hadoop，用来存储和解决大量的数据集。Hadoop 框架中的两个外围为 HDFS 和 MapReduce。HDFS 是一个分布式文件贮存零碎，使数据可能被高效地贮存并屡次读出，而 MapReduce 则是一种分布式并行的计算引擎，它可能将大规模数据集的操作调配给各个子节点同步计算，最初整合各个子节点的后果得出最终的计算结果，使数据处理的能力失去了质的飞跃。Hadoop 的框架设计理念激发了大家对大数据处理的翻新思维，为随后的 Spark、Flink、MADlib 等分布式计算工具的倒退施展了重要的作用。Hadoop 的呈现让企业领有了解决大量数据集的能力，也让企业家们意识到数据处理在商业中的重要性。数据钻研不仅使商业公司的诸多问题失去了解决，而且帮忙他们摸索新的商业模式、钻研消费者行为，在此基础上做出更好的商业决策。因而，各大公司空前渴望领有数据分析能力的人才，这使数据迷信在商业畛域中失去了迅速倒退，并取得了大量的实际成绩。

随着越来越多的商业公司开始器重数据的重要性，数据的保留成为了各大公司重要指标。尤其如 Amazon、淘宝、京东等大型的电商公司为了应答双十一、彩色星期五等大型的打折优惠节日中短时间内的数据激增，这些公司须要购买大量的设施来解决和贮存数据。当节日过来，数据量开始回归失常，大部分的设施开始闲置。因而，为了不让这些设施持续闲置，世界最大的电商 Amazon 开发了 Amazon Web Service (AWS) 云平台，旨在将闲置的设施出租进来，让用户能够通过云平台在没有物理服务器的状况下失去一系列服务，如弹性计算、存储、数据库等。同时，云平台在大数据畛域中提供了云分布式存储以及分布式计算的计划，解决了数据科学家因为宏大的数据量导致的算力有余的问题。

随着云平台的倒退，云数据库也失去了行业内的器重。云数据库相较于传统数据库来说，不仅实现了对 SQL 的完满兼容，同时还具备了备份、扩容、迁徙等泛滥劣势。2022 年 10 月 24 日，国内顶尖的研发团队拓数派公布了全新的云原生数据库产品 PieCloudDB Database，其采纳了冲破式翻新分布式技术 — elastic Massive Parellel Processing (弹性大规模并行计算），构建了以云原生、剖析型分布式数据库为引擎的数据计算平台，为数据科学家提供了更加不便、疾速的数据获取、以及数据分析的形式。

自 1962 年 John W. Tukey 发表的《The Future of Data Analysis》文章以来，数据迷信失去了蓬勃的倒退。从起初停留在统计学实践层面到现在成为一门领有复合的常识体系且专业性极强的学科。越来越多的公司和机构开始组建数据迷信团队来解决商业经营中遇到的各种理论问题。随着数据的日益增长，计算机科学的继续倒退，咱们置信数据迷信畛域会在不久的未来深刻大家生存中的方方面面，为人们的生存带来更多的便当。

参考资料：

50 Years of Data Science:
https://courses.csail.mit.edu…
The Future of Data Analysis:
https://www.jstor.org/stable/…
John W. Tukey: His Life and Professional Contributions:
https://www.stat.berkeley.edu…
TIOBE Index for November 2022:
https://www.tiobe.com/tiobe-i…
Python Leads the 11 Top Data Science, Machine Learning Platforms: Trends and Analysis:
https://www.kdnuggets.com/201…

关于数据科学:数据科学的起源与发展

1. 数据迷信的起源

2. 数据分析的将来

3. 突破传统统计学的边界

3.1 1993 年，John Chambers –“更容纳”或“更专有”的统计学

3.2 1993 年，Robert Gentleman & Ross Ihaka – R 语言

3.3 1997 年，C. F. Jeff Wu –“统计学 = 数据迷信？”

3.4 2001 年，Leo Breiman –《统计建模：两种文化》

3.5 2001 年，William S. Cleveland – 数据迷信的 6 个焦点

4. 21 世纪，从实践到实际

4.1 20s，Python

4.1.1 NumPyNumPy

4.1.2 Pandas

4.1.3 Matplotlib

4.1.4 Scikit-Learn

4.1.5 TensorFlow

4.2 2005 年，Hadoop

4.3 20s，云平台

4.3.1 云数据库

5. 总结