关于python:第1天｜12天搞定Python网络爬虫吃里爬外

人力资源部丑陋的小 MM，跑来问我：老陈，数据分析和爬虫到底是关系呀？说切实的，我真不想理她，因为我始终认为这个跟她的工作关系不大，可一想到她负责我负责部门的招聘工作，我只好勉为其难地跟她说：数据分析，吃里，爬虫，爬外，合在一起就是吃里爬外。

大数据时代，要想进行数据分析，首先要有数据起源，单靠公司那几条毛毛雨 (数据)，剖析个寂寞都不够，唯有通过学习爬虫，从内部(网站) 爬取一些相干、有用的数据，能力让老板进行商业决策时的有据可依，而你，亦是老板。

一提到老板，丑陋的小 MM，兴奋得不得了，马上大声问：你们 IT 界，最帅的是不是就是那个搞搜索引擎的李老板?

我只管有点不服气，有点不开心，但我能怎么得，毕竟在网络爬虫方面，他 (李老板) 的技术比的确强。他懂得用爬虫技术，每天在海量互联网信息中进行爬取，爬取优质的信息并收录在他设定的数据库中。当用户在搜索引擎中，输出关键字时，引擎零碎将对关键词进行数据分析解决，从收录的网页中找出相干网页，依照肯定的排名规定排序并将后果展示给用户。

一想到排名赚到的 money，李老板一分都不给我，我就跟人力 MM 说：好了，不跟你扯犊子了，我要跟我的老铁说网络爬虫的原理了，你个吃里爬外的家伙，见你的老板去吧。

爬虫是什么

=========

网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器等，它依照咱们制订的规定，在网络上爬取数据。爬到的后果中会有 HTML 代码、JSON 数据、图片、音频或视频。程序员依据理论要求，对数据进行过滤，提取其中有用的，进行存储。

说白点，就是用 Python 编程语言模仿浏览器，拜访指定网站，对其返回后果，按规定进行筛选并提取本人须要的数据，寄存起来应用，以供应用。

看过我《第 10 天 | 12 天搞定 Python，文件操作》和《第 11 天 | 12 天搞定 Python，数据库操作》的老铁，应该晓得，数据常存在文件或数据库中。

爬取流程

========

用户通过浏览器拜访网络数据的形式：关上浏览器 -> 输出网址 -> 浏览器提交申请 -> 下载网页代码 -> 解析成页面。

爬虫编程，指定网址，模仿浏览器发送申请(获取网页代码)-> 提取有用的数据 -> 寄存于文件或数据库中。

爬虫编程，举荐用 Python，是因为 Python 爬虫库简略易用，在 Python 内置环境中的，就能够满足大多数性能。它能够：

(1) 用 http 库向指标站点发动申请，即发送一个 Request(蕴含申请头和申请体等)；

(2) 对服务器返回的 Response，用内置的库 (html、json、正则表达式) 就进行解析

(3) 将所需数据存储到文件或数据库当中。

如果 Python 内置的库不够用的话，能够用 pip install 库名，疾速下载第 3 方库并进行应用。

爬点定位

========

在编写爬虫代码的过程中，常常须要指定爬取的节点或门路。如果我通知你，Chrome 浏览器，就能够疾速获取节点或门路的话，你会不会马上看一下电脑是否装置了？

会的话，那就对了，不会的，连忙去装置吧。

在页面中，按下键盘 F2 键，可显示源代码。鼠标选中你要获取的节点，右键【查看】就可定位到代码中，右键代码，抉择【Copy】-【Copy Selector】或【Copy XPath】便可复制节点或门路的内容。

好了，无关爬虫原理的内容，老陈讲完了，如果感觉对你有所帮忙，心愿老铁能转发点赞，让更多的人看到这篇文章。你的转发和点赞，就是对老陈持续创作和分享最大的激励。

一个当了 10 年技术总监的老家伙，分享多年的编程教训。想学编程的敌人，可关注今日头条：老陈述编程。我将分享 Python，前端 (小程序) 和 App 方面的干货。关注我，没错的。