人力资源部丑陋的小 MM,跑来问我:老陈,数据分析和爬虫到底是关系呀?说切实的,我真不想理她,因为我始终认为这个跟她的工作关系不大,可一想到她负责我负责部门的招聘工作,我只好勉为其难地跟她说:数据分析,吃里,爬虫,爬外,合在一起就是吃里爬外。
大数据时代,要想进行数据分析,首先要有数据起源,单靠公司那几条毛毛雨 (数据),剖析个寂寞都不够,唯有通过学习爬虫,从内部(网站) 爬取一些相干、有用的数据,能力让老板进行商业决策时的有据可依,而你,亦是老板。
一提到老板,丑陋的小 MM,兴奋得不得了,马上大声问:你们 IT 界,最帅的是不是就是那个搞搜索引擎的李老板?
我只管有点不服气,有点不开心,但我能怎么得,毕竟在网络爬虫方面,他 (李老板) 的技术比的确强。他懂得用爬虫技术,每天在海量互联网信息中进行爬取,爬取优质的信息并收录在他设定的数据库中。当用户在搜索引擎中,输出关键字时,引擎零碎将对关键词进行数据分析解决,从收录的网页中找出相干网页,依照肯定的排名规定排序并将后果展示给用户。
一想到排名赚到的 money,李老板一分都不给我,我就跟人力 MM 说:好了,不跟你扯犊子了,我要跟我的老铁说网络爬虫的原理了,你个吃里爬外的家伙,见你的老板去吧。
- 爬虫是什么
=========
网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器等,它依照咱们制订的规定,在网络上爬取数据。爬到的后果中会有 HTML 代码、JSON 数据、图片、音频或视频。程序员依据理论要求,对数据进行过滤,提取其中有用的,进行存储。
说白点,就是用 Python 编程语言模仿浏览器,拜访指定网站,对其返回后果,按规定进行筛选并提取本人须要的数据,寄存起来应用,以供应用。
看过我《第 10 天 | 12 天搞定 Python,文件操作》和《第 11 天 | 12 天搞定 Python,数据库操作》的老铁,应该晓得,数据常存在文件或数据库中。
- 爬取流程
========
用户通过浏览器拜访网络数据的形式:关上浏览器 -> 输出网址 -> 浏览器提交申请 -> 下载网页代码 -> 解析成页面。
爬虫编程,指定网址,模仿浏览器发送申请(获取网页代码)-> 提取有用的数据 -> 寄存于文件或数据库中。
爬虫编程,举荐用 Python,是因为 Python 爬虫库简略易用,在 Python 内置环境中的,就能够满足大多数性能。它能够:
(1) 用 http 库向指标站点发动申请,即发送一个 Request(蕴含申请头和申请体等);
(2) 对服务器返回的 Response,用内置的库 (html、json、正则表达式) 就进行解析
(3) 将所需数据存储到文件或数据库当中。
如果 Python 内置的库不够用的话,能够用 pip install 库名,疾速下载第 3 方库并进行应用。
- 爬点定位
========
在编写爬虫代码的过程中,常常须要指定爬取的节点或门路。如果我通知你,Chrome 浏览器,就能够疾速获取节点或门路的话,你会不会马上看一下电脑是否装置了?
会的话,那就对了,不会的,连忙去装置吧。
在页面中,按下键盘 F2 键,可显示源代码。鼠标选中你要获取的节点,右键【查看】就可定位到代码中,右键代码,抉择【Copy】-【Copy Selector】或【Copy XPath】便可复制节点或门路的内容。
好了,无关爬虫原理的内容,老陈讲完了,如果感觉对你有所帮忙,心愿老铁能转发点赞,让更多的人看到这篇文章。你的转发和点赞,就是对老陈持续创作和分享最大的激励。
一个当了 10 年技术总监的老家伙,分享多年的编程教训。想学编程的敌人,可关注今日头条:老陈述编程。我将分享 Python,前端 (小程序) 和 App 方面的干货。关注我,没错的。