关于大数据:未来源码-终于有人把大数据机器学习数据科学讲明白了

4次阅读

共计 3828 个字符,预计需要花费 10 分钟才能阅读完成。

4G 时代,随着智能手机的应用,数据量级剧增,然而这种数据增长才刚刚开始。随着 5G 和万物互联时代到来,数据量将成指数量级减少。尽管数据中蕴含了大量有价值的信息,然而须要通过特定的工具和办法能力提取其中价值。而数据迷信就是一门对于从数据中去开掘常识,产生价值的学科。数据迷信蕴含了应用数据挖掘和机器学习算法对数据进行深度解决的过程。

《意识 AI:人工智能如何赋能商业》这本书艰深地介绍了人工智能(AI)和机器学习(ML):它们是如何工作的、能做什么、不能做什么、如何借助它们获利。这本书为非技术高管和非专业人士撰写。作者罗斯基于多年的教学和征询教训,以直观的类比和解释揭开了 AI/ML 技术的神秘面纱,解释了从晚期的“专家系统”到先进的深度学习网络的倒退。

—— MobTech 袤博科技数据分析总监 船长

作者:道格·罗斯 (Doug Rose)
起源:华章计算机(hzbook_jsj)
内容摘编自《意识 AI:人工智能如何赋能商业》

数据的爆炸式增长及其可用性推动了人工智能(AI)的倒退。你给人工神经网络提供的信息越多,它学习的速度就越快,能力也就越强。

在启动人工智能我的项目之前,须要思考数据在该我的项目中所起的作用以及如何应用这些数据。例如,你必须决定是只想剖析数据以取得洞察力,还是心愿利用机器学习技术解决数据并进行预测。要做出这些决策你须要理解一些要害概念,包含大数据、数据迷信和数据挖掘。

本文说明了数据在人工智能我的项目中所起的作用,并帮忙你在如何利用人工智能上做出理智决策,充分利用以后能够应用的大量数据以及未来能够取得的、一直增长的数据。

了解大数据的基本概念

大数据个别指能够被计算机剖析以揭示模式、趋势和关联关系的微小数据集。 然而如果你浏览最后呈现大数据这个词的报告,会发现作者并没有把“大数据”当作一个术语。他们用它来形容一个问题,比方“咱们有一个大的数据(BIG data)问题”,而不是“咱们有一个大数据(BIG-DATA)问题”。

咱们在存储和解决大量生成的数据时会遇到很多艰难。在一家公司降级其外部数据仓库后不久,数据量很可能就超过了该数据仓库的容量。数据仓库无奈跟上流入它的数据量和品种,或者没有足够的解决能力从这些数据中生成报告。当初许多公司在一天完结时运行报告生成程序,所以报告将在第二天上午或下午实现。在另外一些公司,许多员工同时查问数据,他们必须期待数小时能力失去后果,如果零碎因解决能力有余而解体或解冻,他们必须从新开始。其中许多业务(如证券交易所)依附实时报告来放弃竞争力。
问题会越来越多。据估计,在将来十年内,全世界将有超过 1500 亿个联网传感器,每个传感器每年 365 天 7×24 小时地生成数据。设想一下人类一天之内在 Facebook、Twitter、Google、在线购物网站、在线游戏网站等网站上生成的所有数据,你就晓得数据量有多大!
咱们感觉,大数据既是一个问题,也是一个时机。 大数据是一个问题,因为你须要确定是解决大量数据集,还是解决更适中的数据。兴许你只须要应用更小的数据集来剖析网站的应用状况,或者掂量营销策略的有效性。然而,如果须要剖析大量的数据集(如为了找到治愈感冒的办法),你须要布局你的存储和解决技术。但大数据也是一个时机,如果没有大数据,人工智能就无奈利用数据来构建准确的模型用于识别模式、进行预测。

与数据科学家单干

如果你正在开发一个须要大数据的人工智能利用,最好与数据科学家单干,或者至多征询一下。数据科学家承受各种学科的培训,包含编程、数据管理和统计,通过理解如何解决、剖析和解释数据来达到帮忙业务进行决策的目标。
机器学习不是数据科学家的必须工作技能。例如,数据科学家可能会问一些你从未想过要问的问题,以帮忙你更分明地理解试图从数据中开掘的常识,这可能是一个问题的答案、一个难题的解决方案,或是对可能引发系统故障的各种因素的洞察。为了实现这一指标,数据科学家能够应用或举荐工具来剖析和解释数据。数据科学家可能会发现你真的不晓得本人在这些数据中寻找什么,并帮忙你开发一个机器学习零碎来辨认数据中可能存在的模式,这种模式有可能提供你从未想过的某种洞察力。

简言之,数据科学家能够帮忙你评估数据并剖析需要、提供解决方案,让你最大限度地利用数据。

机器学习与数据挖掘的区别

在解决数据时(不论数据集的大小),可能会遇到大量术语。两个常常被混同的术语是数据挖掘和机器学习(见图 5.1)。

  • 数据挖掘 是从数据中抉择有用信息或见解的任何数据处理办法。(请留神,你并不是在开掘数据,而是从这些数据中开掘信息和见解。)
  • 机器学习 是一门让计算机去做它们没有被设定好怎么去做某项事件(即不是死板地、程式化地去做事件)的迷信。

数据挖掘能够应用机器学习从数据中抉择有用的信息或见解,但不肯定非要应用机器学习技术。

机器学习和数据挖掘的另一个要害区别是它们所应用的技术。应用机器学习,首先要训练一个模型,而后应用一个用 Python、R 或其余一些计算机语言编写的机器学习框架。数据挖掘通常应用更宽泛的工具集,包含可视化和商业智能工具,其中许多工具的性能繁多,只以相似但比电子表格应用程序更简单的形式抉择、排序、汇总和出现数据。

从数据挖掘到机器学习的飞跃

从数据挖掘到机器学习的飞跃并不像一开始看起来那么具备挑战性。如果你曾经在解决大数据并从中提取有价值的见解,那么曾经具备了治理这些数据的专业技能。你能够找到大量的软件可能创立报告和可视化你的数据。机器学习只是从数据中失去价值的工具。

很有可能你曾经有了一个数据管理团队,并且团队中的人习惯于应用大型数据集。他们可能相熟下载 Python 语言编写的框架来操作这些数据集。要应用机器学习,他们只须要以不同的形式利用这些数据就能够了。他们须要训练神经网络等机器学习模型,并从数据中寻找有价值的模式,而不是间接从数据中开掘有价值的信息。
我曾为几家公司工作过,这些公司多年来始终致力于开发大型数据我的项目。他们认为向机器学习的飞跃和向大数据的飞跃一样艰难。事实上,利用机器学习技术更容易一些,因为这些团队曾经很理解 Python 和 R,并且相熟应用大型数据集。
最大的挑战是让团队以不同的形式思考数据。他们须要创立训练集并从新调整人工神经网络中神经元(节点)的权重,这与他们习惯于应用大数据工具与数据间接交互的工作模式是不同的。
给大家一个正告: 如果你的组织正在解决大数据,请记住,你有一把闪亮的新锤子并不意味着一切都是钉子。领有大数据的企业往往容易被机器学习的价值所误导,但机器学习并不总是最佳抉择。较小的人工智能我的项目能够通过符号办法更好地实现。不要认为你有数据,机器学习永远是最好的抉择。

采纳正确的办法

当你布局一个波及数据的我的项目时,兴许最好的办法是疏忽术语以及数据迷信、数据挖掘和机器学习之间的区别。而不是将注意力放在试图答复或解决的问题上,与数据科学家单干或者征询他们,尽快确定最佳的办法。以下是一些个别准则:

  • 如果你须要从数据中抉择有价值的信息,并且对心愿取得的信息(例如特定时间段内拜访网站的人数)有清晰的意识,那么数据库(或数据仓库)配合根本的商业智能软件可能就足够了。
  • 如果你面对的是大数据,对答复某个疑难或解决某个特定问题没有特地的思路(甚至可能没有问题,或者心中也没什么困惑,一片茫然),那么你可能须要应用某种(监督或无监督)机器学习技术。比方应用无监督学习,能够将所有数据输出机器学习模型,并查看它会产生什么后果。

咱们来思考这样一个问题:假如你治理一家医院,须要确定胜利医治患者的办法。能够从几个不同的角度来应答这个挑战(见图 5.2)。

一种抉择是组建本人的数据迷信团队,找出须要剖析的数据类型。例如,团队中的一个成员可能会问:“哪些医生的成功率最高?”或“哪个病人的随访打算产生起码的回访次数?”等等。基于这些问题,数据迷信团队将抉择相干的数据集,剖析数据、生成报告并探讨他们的发现。这些报告可能导致更多须要进一步剖析的问题。整个过程将须要进行密集的交换与探讨。

另一种办法是在人工神经网络上应用无监督的机器学习技术。你把所有的数据输出人工神经网络,心愿它能辨认出有用的模式。有了这些模式,就要由你和你的团队来确定这些模式的相关性,并找出相干模式背地的起因。

这些办法各有优缺点。数据迷信团队可能会对见解背地的数据有更多的理解。他们会对数据有一种直观的感觉,并开始问更多乏味的问题。基于人工神经网络的机器学习办法可能辨认出不一样的模式,因为它跟人类解决数据的形式是不一样的,它还能够找到不可解释的模式,这种模式对机器或者有意义,但人类可能无奈了解。

应用人工神经网络的一大毛病是它无法解释某些模式背地的起因。例如,人工神经网络可能显示医院应用的一种抗生素医治某些感化的成功率高于其余抗生素,但它不能解释起因。起因可能是之所以它的成果更好,是因为副作用更少,病人更可能持续服用。
另一种状况是,机器输入后果,然而任何查看后果的人都无法解释后果的含意。换句话说,后果对机器有意义,但对人没有意义。因而,咱们能够进行逆向工程,试图理解为什么网络是这样工作的。然而,因为“规定”是不可解释的,咱们可能不晓得为什么网络产生了这样的后果。

数据迷信团队可能会对数据有更好的感觉。他们会提出问题,利用自身的学习和了解从数据中发现要害的线索。他们不会思考有限的可能性,而是将思考范畴放大到最有可能的因素,如医生、药物或成功率最高的程序等。

正文完
 0