为什么我们需要更多数据科学领域的专家

20次阅读

共计 3981 个字符,预计需要花费 10 分钟才能阅读完成。

当我与越来越多的数据科学和 “ 大数据 ” 社区合作时,我震惊地发现,大部分从业者基础都狭隘地集中在统计和计算专业知识上,并没有对正在研究的领域有扎实的基础。不管是政府机构,还是商业公司,许多岗位都有数据科学家的身影。我曾共事过的同事,多是从计算机科学或硬件科学领域开始他们的职业生涯。这种特定领域知识的缺乏如何影响当今的大数据和数据分析世界?

在我接触过的数据科学家中,极少数在他们目前研究的学科和领域拥有深厚的背景或严格的培训。与我合作过的许多组织中,数据科学家被视为即时问题解决者, 在组织的整个运作中快速移动,分析一个领域中的深层技术。然后第二天去解决在另一个完全不同的领域中出现的复杂问题。每天早上,数据科学者制作出电子报表,当天下午便会收到模型的结果,然而数据分析流程中的生产者和消费者之间几乎没有互动或沟通。

这造成了一种危险的情况,数据科学家往往不熟悉他们所使用的数据中的细微差别或他们所研究的领域的专业假设,并可能会无意中产生误入歧途的分析。这并不是说数据科学是一门糟糕的科学,而是数据分析只是一种工具,而不是某种形式的普遍真理。其实所有的数据都是一样,大量数据以及用于分析这些数据的统计方法、算法和软件包必须与无数潜在错误作斗争。

正如我在无数场合所指出的,挖掘数据和回答问题有很大的不同。任何给定的数据集都只是对实际情况的某一方面体现,但单一的数据集不可能提供了对所有现实存在的完美、全面和公正的体现。这意味着, 在分析数据方面,对自己正在关注的数据有任何了解远比拥有统计博士要重要得多。正如我去年为《卫报》撰写的文章那样,即使是像内特·西尔弗这样最著名的统计学家,也会对他们正在处理的数据做出错误的假设。

进行数据挖掘与进行其他领域的实验是一样的: 实验的实际执行是一个非常长的流程的最后阶段,即使在收集结果之后,仍然有一个漫长而详细的过程来验证结果。然而,我遇到的数据科学家很少接受过实验设计方面的严格培训,也很少有人完全理解和认可他们在分析的每个阶段所做的无数假设。

与任何实验一样, 数据分析有很长的流程,每个阶段都会对环境产生影响。首先是利用通过调查或传感器仪器新收集的数据或推特等存储库的现有数据收集数据。与任何实验一样,用于收集数据的仪器和收集数据的条件会对最终数据产生巨大影响,甚至有可能使数据捕捉感兴趣现象的能力消失。一旦收集到数据,就必须隔离收集环境的各种影响和偏见,以尝试清理数据和隔离错误。这可能需要规范化来处理随着时间的推移对集合环境的更改。有一系列的算法或统计方法用于清理和分析数据,但这些方法往往可能会对数据的组成做出假设,而这些假设可能不成立,可能需要替代方法对错误和噪声更加稳健。最后,分析的最终结果要求仔细考虑整个处理流程,以彻底消除假设所提议的结果以外的任何其他来源。

我所看到的数据科学往往从抓取任何最容易访问的数据集开始: 因此,驱动查找的基础数据更多的是基于哪些数据可以最快速地获得,而不是哪些数据实际上最能回答问题。一位域名专家可以告诉你, 从英语西方社交媒体平台挖掘直播流媒体视频可能不是评估偏远森林村观点的最佳方式,这个村庄只有一部太阳能非数据功能手机作为其唯一的手机与外界的联系。同样, 在一个没有移动数据渗透、只有功能手机的地区,很少有居民有手机。在打电话吃饭的手续上,使用开放餐桌餐厅预订来衡量疾病爆发可能不是一个可行的解决方案预订不是当地传统的一部分。然而,这两者都给我被要求审查的重大项目带来了严峻的惊喜。问题是,很少有数据科学项目涉及大量能够对数据选择过程进行这种检查和深入了解的领域专家。

也许接下来最关键的部分是: 验证和清洁。这就是领域专业知识对于验证当前数据是否可以转换为实际支持所需分析的内容更为关键的地方。例如, 我曾经被要求帮助监督一个按国家汇编失业数据的项目, 该项目可以追溯到几百年前。问题是, 每个国家对 “ 失业 ” 概念的定义都不同。有些人将所有失业者混为一谈, 而另一些人则将寻找的人与不找工作的人分开, 或将残疾人排除在外或包括残疾人、在家工作、社会福利收据、大学生等。这些定义往往会随着时间的推移而变化, 这意味着在一年的数据中, “ 失业 ” 可能只指一个国家的失业砖匠, 可能会将国家支持的福利领取者排除在另一个国家, 并可能包括所有个人, 包括所有个人全日制大学生在另一个, 然后改变第二年在一些国家, 但不是其他国家。这在比较需要对数据进行广泛研究和修补才能修复的国家时, 在数据中产生了非常奇怪的渗出和楼梯步进效应。

不幸的是, 很少有数据科学家在探索性和魔鬼的数据集分析方面接受过广泛的培训。他们经常会下载一个数据集, 阅读随数据所附的文档, 并完全根据文档所说的数据应该是什么样子进行分析。当然, 在现实生活中, 数据很少与文档完全匹配。也许最著名的是, 在创建广泛报道的 2012 年全球推特心跳分析时, 我们发现, 当时的文档和其他数据科学家提供的公共统计数据表明, 推特数据所包含的数据不到 1% 的地理标记推特。然而, 当我对 Twitter Decahose 进行各种模式和异常的初步扫描时, 一个早期的发现是, iPhones 将其地理位置信息存储在一个没有记录和非标准的字段中, 这在推特中增加了 1% 可用的地理位置信息 (推特规模的大量信息)。虽然有几篇奇怪的论文评论说, 在这里和那里看到了一些奇怪的数据点, 但没有人坐下来, 带着完整的推特数据, 在上面进行详尽的扫描, 寻找任何与文件不同的东西, 或者是像奇怪的一样突出的东西,如 JSON 工程中的技术错误等。

也许最致命的是, 我所遇到的数据科学家很少有在理解规范化和测量对结果的影响方面有过广泛的培训或背景, 从调查设计和管理到错误的数字精度。随着时间的推移, 几乎所有数据集的可用性和准确性都呈指数级增长, 尤其是在后数字时代。无论是看失业数据, 还是看提及特定主题的新闻文章数量, 任何数据集中捕捉到的现实的基本观点都不是静态的: 它是高度流动和动态的, 往往以非常非线性的方式变化。这就需要广泛的领域知识来了解数据集是如何编译的, 以及它所测量的字段或现象的功能和细微差别。

在所有关于推特的学术研究中, 很大一部分使用了免费的 1% 流量媒体的 API。然而, 一长串的研究认为, 1% 的流量是一个非随机样本的整个推特消防软管与明显的差异, 这表明我们对 Twitter 如何大规模运作的理解和知识可能是有偏见或错误的。

在互联网时代之前, 绝大多数涉及新闻报道的学术研究都是扭曲的, 因为它未能使被评估的网点的组成和总产量的潜在变化常态化。新闻机构并不是及时固定的静态实体 – 它们的主题焦点会随着读者利益的变化而变化, 每天发表的文章总量也会随着时间的推移而发生巨大的变化。

2010 年, 为了在美国教育委员会的《总统任期》中进行的一项研究, 保罗·马盖利和我在《纽约时报》的美国记录报纸印刷版中研究了过去半个世纪来高等教育覆盖面的变化。如果仅仅计算出每年提到所有美国研究型大学的原始文章数量, 由此得出的图表显示, 60 年来对高等教育的兴趣相对稳定。

在《纽约时报》1945-2005 年印刷版中提到一所研究型大学的文章总数 (信用: Kalev Leetaru/sunden 大学转载)。然而, 如下文所示, 在这 60 年期间 (1945-2005 年),《纽约时报》的年总产量线性萎缩了 50% 以上。

因此, 虽然在这 60 年里, 提到研究型大学的文章的绝对数量保持相对稳定, 但这是在论文缩小一半以上的背景下发生的, 这意味着如果我们每年除以原始文章的数量当年《纽约时报》所有文章的总数都提到了高等教育, 我们得到了一个截然不同的画面, 这一情况显示, 在这 60 年里, 这一情况稳定地几乎增加了两倍。

问题就出在这里 – 大多数研究审查媒体对某一主题的报道只是报道原始数量, 而不是通过被评估的网点的总产出的变化来常态化。

即使在规范化之外, 数据科学家也经常通过对照辅助数据集检查数据集来 “ 验证 ” 数据集。然而, 如果比较数据集是由同一组织使用相同的数据源和方法生成的, 则不会提供真正的验证点。事实上, 我看到在同行评审文献中发表的文章越来越多, 这些文章比较了多个数据集, 并认为其中一篇比另一个数据集更准确, 因为它表明它与第三个数据集的相关性更密切, 但第三个数据集是在哪里产生的使用相同的数据和方法。这意味着, 相关检查实际上只是评估这两个项目在将相同的方法应用于相同的数据时的匹配程度, 而不是它们在评估有关现象时是否比第三个项目更准确。让一名领域专家参与该项目, 将使这种错误在最初阶段被抓住, 而不是通过同行审查才能生存到出版。这也表明, 许多同行评审期刊, 包括一些最负盛名的领域, 缺乏领域专家来可信地同行评审他们的许多提交。

数据集创建者可以做些什么来帮助分析师避免犯这类错误?当 Culturomics 团队发表 2010 年的论文时, 他们意识到, 大量将使用其数据的人不会完全理解或理解正常化的重要性。仅仅报告到 1800 年到年英语语文书籍中出现的每个单词的原始次数就会产生巨大的误导, 因为在这一期间, 按年出版的数字化书籍的总宇宙成倍增长。为了解决这个问题, 作者创建了一个公共访问视图, 该视图只报告规范化的值, 而无法查看原始计数。这可确保普通用户不会被引入歧途。对于拥有处理数十亿行数据集的技术能力的高级用户来说, 这些数据集也可供下载, 前提是任何有技能处理原始数据的人都可能拥有了解如何正确规范化数据.

简而言之, Culturomics 的创作者主动设计了他们的数据集的发布, 以便积极引导用户远离无意中的错误, 而不仅仅是在 web 服务器上翻拍一组 CSV 文件, 并交叉手指, 让人们使用这些文件正确。

正如我在 2014 年为 wired 撰写的文章中所说, “ 要使大数据超越营销炒作, 走向真正的变革性解决方案, 就必须从产生它的计算机科学实验室中 ‘ 成长 ‘, 花更多的时间去理解它所应用的特定领域的算法和数据, 而不是操作它们的计算算法.

正文完
 0