关于网络爬虫:Python网络爬虫学习实战爬虫快速入门

很多同学私信问爬虫的相干教程，想了想，还是专门跟大家出些Python爬虫学习相干的教程，从零开始论述如何编写Python网络爬虫，以及网络爬虫中容易遇到的问题，比方具备反爬加密的网站，还有爬虫拿不到数据，以及登录验证等问题，会随同大量网站的爬虫实战来进行。

咱们编写网络爬虫最次要的目标是爬取想要的数据还有通过爬虫去主动实现咱们想在网站中做的一些事件。

这里我会从根底开始解说如何通过网络爬虫去实现你想要做的事。

先来看一段简略的代码。

import requests #导入requests包
url = ‘https://www.cnblogs.com/LexMoon/’
strhtml = requests.get(url) #get形式获取网页数据
print(strhtml.text)

首先是import requests来导入网络申请相干的包，而后定义一个字符串url也就是指标网页，之后咱们就要用导入的requests包来申请这个网页的内容。

这里用了requests.get(url)，这个get并不是拿取的那个get，而是一种对于网络申请的办法。

网络申请的办法有很多，最常见的有get，post，其它如put，delete你简直不会见到。

requests.get(url)就是向url这个网页发送get申请(request)，而后会返回一个后果，也就是这次申请的响应信息。

响应信息中分为响应头和响应内容。

响应头就是你这次拜访是不是胜利了，返回给你的是什么类型的数据，还有很多一些。

响应内容中就是你取得的网页源码了。

好了，这样你就算是入门Python爬虫了，然而还是有很多问题。

get和post申请有什么区别？
为什么有些网页我爬取到了，外面却没有我想要的数据？
为什么有些网站我爬下来的内容和我实在看到的网站内容不一样？

get和post申请有什么区别？

get和post的区别次要在于参数的地位，比如说有一个须要登录用户的网站，当咱们点击登录之后，账号密码应该放在哪里。

get申请最直观的体现就是申请的参数就放在了URL中。

比如说你百度Python这个关键字，就能够发现它的URL如下：

https://www.baidu.com/s?wd=Python&rsv_spt=1

这外面的dw=Python就是参数之一了，get申请的参数用?开始，用&分隔。

如果咱们须要输出明码的网站用了get申请，咱们的个人信息不是很容易裸露吗，所以就须要post申请了。

在post申请中，参数会放在申请体内。

比如说上面是我登录W3C网站时的申请，能够看到Request Method是post形式。

在申请的上面还有咱们发送的登录信息，外面就是加密过后的账号密码，发送给对方服务器来测验的。

为什么有些网页我爬取到了，外面却没有我想要的数据？

咱们的爬虫有时候可能爬下来一个网站，在查看外面数据的时候会发现，爬下来的是指标网页，然而外面咱们想要的数据却没有。

这个问题大多数产生在指标数据是那些列表型的网页，比如说前几天班上一个同学问了我一个问题，他在爬携程的航班信息时，爬下来的网页除了取得不了航班的信息，其余中央都能够拿到。

网页地址:https://flights.ctrip.com/itinerary/oneway/cgq-bjs?date=2019-…

如下图：

这是一个很常见的问题，因为他requests.get的时候，是去get的下面我放的那个URL地址，然而这个网页尽管是这个地址，然而他外面的数据却不是这个地址。

听起来很像很难，然而从携程这个网站的设计人的角度来说，加载的这部分航班列表信息可能很宏大，如果你是间接放在这个网页外面，咱们用户关上这个网页可能须要很久，以至于认为网页挂了而后敞开，所以设计者在这个URL申请中只放了主体框架，让用户很快进入网页中，而次要的航班数据则是之后再加载，这样用户就不会因为期待很长时间而退出了。

说到底怎么做是为了用户体验，那么咱们应该怎么解决这个问题呢？

如果你学过前端，你应该晓得Ajax异步申请，不晓得也没事，毕竟咱们这里不是在说前端技术。

咱们只须要晓得咱们最开始申请的https://flights.ctrip.com/itinerary/oneway/cgq-bjs?date=2019-…这个网页中有一段js脚本，在这个网页申请到之后会去执行，而这段脚本的目标就是去申请咱们要爬的航班信息。

这时候咱们能够关上浏览器的控制台，举荐应用谷歌或者火狐浏览器，按F进入坦克，不，按F12进入浏览器控制台，而后点击NetWork。

在这里咱们就能够看到这个网页中产生的所有网络申请和响应了。

在这外面咱们能够找到申请航班信息的其实是https://flights.ctrip.com/itinerary/api/12808/products这个URL。

为什么有些网站我爬下来的内容和我实在看到的网站内容不一样？

最初一个问题就是为什么有些网站我爬下来的内容和我实在看到的网站内容不一样？

这个的次要起因是，你的爬虫没有登录。

就像咱们平时浏览网页，有些信息须要登录能力拜访，爬虫也是如此。

这就波及到了一个很重要的概念，咱们的平时观看网页是基于Http申请的，而Http是一种无状态的申请。

什么是无状态？你能够了解为它不认人，也就是说你的申请到了对方服务器那里，对方服务器是不晓得你到底是谁。

既然如此，咱们登录之后为什么还能够长时间持续拜访这个网页呢？

这是因为Http尽管是无状态的，然而对方服务器却给咱们安顿了身份证，也就是cookie。

在咱们第一次进入这个网页时，如果之前没有拜访过，服务器就会给咱们一个cookie，之后咱们在这个网页上的任何申请操作，都要把cookie放进去。这样服务器就能够依据cookie来辨识咱们是谁了。

比方知乎外面就能够找到相干的cookie。

对于这类网站，咱们间接从浏览器中拿到已有的cookie放进代码中应用，requests.get(url,cookies=”aidnwinfawinf”)，也能够让爬虫去模仿登录这个网站来拿到cookie。

更多的Python爬虫学习教程也会持续为大家更新！

关于网络爬虫:Python网络爬虫学习实战爬虫快速入门

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于网络爬虫:Python网络爬虫学习实战爬虫快速入门

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复