大数据开发过程中的5个学习通用步骤

38次阅读

共计 2086 个字符,预计需要花费 6 分钟才能阅读完成。

大数据的开发过程,如图 1 - 1 所示。

图 1- 1 大数据开发通用步骤图

上图只是一个简化后的步骤和流程,实际开发中,有的步骤可能不需要,有的还需要增加步骤,有的流程可能更复杂,因具体情况而定。

下面以 Google 搜索引擎为例,来说明以上步骤。

如果你想要学好大数据最好加入一个好的学习环境,可以来这个 Q 群 529867072 这样大家学习的话就比较方便,还能够共同交流和分享资料

  1. 大数据采集

Google 的数据来源于互联网上的网页,它们由 Google Spider(蜘蛛、爬虫、机器人)来抓取,抓取的原理也很简单,就是模拟我们人的行为,来访问各个网页,然后保存网页内容。

Google Spider 是一个程序,运行在全球各地的 Google 服务器之中,Spider 们非常勤奋,日夜不停地工作。点击领取免费资料及课

2008 年 Google 数据表明,它们每天都会访问大约 200 亿个网页,而在总量上,它们追踪着 300 亿个左右的独立 URL 链接。

可以说,只要是互联网上的网站,只要没有在 robots.txt 文件禁止 Spider 访问的话,其网页基本上都会在很短的时间内,被抓取到 Google 的服务器上。

全球的网页,这是典型的大数据。因此,Google Spider 所做的就是典型的大数据采集工作。

  1. 大数据预处理

Google Spider 爬取的网页,无论是从格式还是结构等,都不统一,为了便于后续处理,需要先做一些处理,例如,在存储之前,先转码,使用统一的格式对网页进行编码,这些工作就是预处理。

  1. 大数据存储

网页经过预处理后,就可以存储到 Google 的服务器上。

2008 年,Google 已经索引了全世界 1 万亿个网页,到 2014 年,这个数字变成了 30 万亿个。

为了减少开销,节约空间,Google 将多个网页文件合并成一个大文件,文件大小通常在 1GB 以上。

这还是 15 年以前的数字,那时,主流台式机硬盘也就是 60GB 左右,1GB 的文件在当时可以说是大文件了。

为了实现这些大文件高效、可靠、低成本存储,Google 发明了一种构建在普通商业机器之上的分布式文件系统:Google File System,缩写为 GFS,用来存储文件(又称之为非结构化数据)。

网页文件存储下来后,就可以对这些网页进行处理了,例如统计每个网页出现的单词以及次数,统计每个网页的外链等等。

这些被统计的信息,就成为了数据库表中的一个属性,每个网页最终就会成为数据库表中的一条或若干条记录。

由于 Google 存储的网页太多,30 万亿个以上,因此,这个数据库表也是超级庞大的,传统的数据库,像 Oracle 等,根本无法处理这么大的数据,因此 Google 基于 GFS,发明了一种存储海量结构化数据(数据库表)的分布式系统 Bigtable。

上述两个系统(GFS 和 Bigtable)并未开源,Google 仅通过文章的形式,描述了它们的设计思想。

所幸的是,基于 Google 的这些设计思想,时至今日,已经出现了不少开源海量数据分布式文件系统,如 HDFS 等,也出现了许多开源海量结构化数据的分布式存储系统,如 HBase、Cassandra 等,它们分别用于不同类型大数据的存储。

总之,如果采集过来的大数据需要存储,要先判断数据类型,再确定存储方案选型;

如果不需要存储(如有的流数据不需要存储,直接处理),则直接跳过此步骤,进行处理。

在这里还是要推荐下我自己建的大数据学习交流群:529867072,群里都是学大数据开发的,如果你正在学习大数据,小编欢迎你加入, 大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴加入。4. 大数据处理

网页存储后,就可以对存储的数据进行处理了,对于搜索引擎来说,主要有 3 步:

1)单词统计:统计网页中每个单词出现的次数;

2)倒排索引:统计每个单词所在的网页 URL(Uniform Resource Locator 统一资源定位符,俗称网页网址)以及次数;

3)计算网页级别:根据特定的排序算法,如 PageRank,来计算每个网页的级别,越重要的网页,级别越高,以此决定网页在搜索返回结果中的排序位置。

例如,当用户在搜索框输入关键词“足球”后,搜索引擎会查找倒排索引表,得到“足球”这个关键词在哪些网页(URL)中出现,然后,根据这些网页的级别进行排序,将级别最高的网页排在最前面,返回给用户,这就是点击“搜索”后,看到的最终结果。

大数据处理时,往往需要从存储系统读取数据,处理完毕后,其结果也往往需要输出到存储。因此,大数据处理阶段和存储系统的交互非常频繁。

  1. 大数据可视化

大数据可视化是将数据以图形的方式展现出来,与纯粹的数字表示相比,图形方式更为直观,更容易发现数据之间的规律。

例如,Google Analytics 是一个网站流量分析工具,它统计每个用户使用搜索引擎访问网站的数据,然后得到每个网站的流量信息,包括网站每天的访问次数,访问量最多的页面、用户的平均停留时间、回访率等,所有数据都以图形的方式,直观地显示出来,如图 1 - 2 所示

图 1 -2 Google 网站访问量分析图

正文完
 0