0 遇到过得反爬虫策略以及解决办法?

1.通过headers反爬虫
基于用户行为的发爬虫：(同一IP短时间内拜访的频率)
动静网页反爬虫(通过ajax申请数据，或者通过JavaScript生成)
对局部数据进行加密解决的(数据是乱码)

解决办法：

对于根本网页的抓取能够自定义headers,增加headers的数据应用多个代理ip进行抓取或者设置抓取的频率升高一些，动静网页的能够应用selenium + phantomjs 进行抓取对局部数据进行加密的，能够应用selenium进行截图，应用python自带的pytesseract库进行辨认，然而比较慢最间接的办法是找到加密的办法进行逆向推理。

1 urllib 和 urllib2 的区别？

urllib 和urllib2都是承受URL申请的相干模块，然而urllib2能够承受一个Request类的实例来设置URL申请的headers，urllib仅能够承受URL。urllib不能够假装你的User-Agent字符串。
urllib提供urlencode()办法用来GET查问字符串的产生，而urllib2没有。这是为何urllib常和urllib2一起应用的起因。

2 列举网络爬虫所用到的网络数据包，解析包？

网络数据包 urllib、urllib2、requests
解析包 re、xpath、beautiful soup、lxml

3 简述一下爬虫的步骤？

确定需要；
确定资源；
通过url获取网站的返回数据；
定位数据；
存储数据。

4 遇到反爬机制怎么解决？

反爬机制:

headers方向判断User-Agent、判断Referer、判断Cookie。将浏览器的headers信息全副增加进去留神：Accept-Encoding；gzip,deflate须要正文掉

5 常见的HTTP办法有哪些？

GET：申请指定的页面信息，返回实体主体；
HEAD:相似于get申请，只不过返回的响应中没有具体的内容，用于捕捉报头；
POST：向指定资源提交数据进行解决申请(比方表单提交或者上传文件)，。数据被蕴含在申请体中。
PUT:从客户端向服务端传送数据取代指定的文档的内容；
DELETE：申请删除指定的页面；
CONNNECT：HTTP1.1协定中预留给可能将连贯形式改为管道形式的代理服务器；
OPTIONS:容许客户端查看服务器的性能；TRACE：回显服务器的申请，次要用于测试或者诊断。

6 说一说redis-scrapy中redis的作用?

它是将scrapy框架中Scheduler替换为redis数据库，实现队列治理共享。

长处：

能够充分利用多台机器的带宽；
能够充分利用多台机器的IP地址。

7 遇到的反爬虫策略以及解决办法?

通过headers反爬虫：自定义headers，增加网页中的headers数据。
基于用户行为的反爬虫(封IP)：能够应用多个代理IP爬取或者将爬取的频率升高。
动静网页反爬虫(JS或者Ajax申请数据)：动静网页能够应用 selenium + phantomjs 抓取。
对局部数据加密解决(数据乱码):找到加密办法进行逆向推理。

8 如果让你来防备网站爬虫，你应该怎么来进步爬取的难度？

判断headers的User-Agent；
检测同一个IP的拜访频率；
数据通过Ajax获取；
爬取行为是对页面的源文件爬取，如果要爬取动态网页的html代码，能够应用jquery去模拟写html。

9 scrapy分为几个组成部分？别离有什么作用？

分为5个局部；Spiders(爬虫类)，Scrapy Engine(引擎),Scheduler(调度器),Downloader(下载器),Item Pipeline(解决管道)。

Spiders:开发者自定义的一个类，用来解析网页并抓取指定url返回的内容。
Scrapy Engine:管制整个零碎的数据处理流程，并进行事务处理的触发。
Scheduler：接管Engine收回的requests，并将这些requests放入到解决列队中，以便之后engine须要时再提供。
Download：抓取网页信息提供给engine，进而转发至Spiders。
Item Pipeline:负责解决Spiders类提取之后的数据。比方清理HTML数据、验证爬取的数据(查看item蕴含某些字段)、查重(并抛弃)、将爬取后果保留到数据库中

10 简述一下scrapy的根本流程?

scrapy分为9个步骤：

Spiders须要初始的start_url或则函数stsrt_requests,会在外部生成Requests给Engine；
Engine将requests发送给Scheduler;
Engine从Scheduler那获取requests,交给Download下载；
在交给Dowmload过程中会通过Downloader Middlewares(通过process_request函数)；
Dowmloader下载页面后生成一个response，这个response会传给Engine，这个过程中又通过了Downloader Middlerwares(通过process_request函数)，在传送中出错的话通过process_exception函数；
Engine将从Downloader那传送过去的response发送给Spiders解决，这个过程通过Spiders Middlerwares(通过process_spider_input函数)；
Spiders解决这个response，返回Requests或者Item两个类型，传给Engine，这个过程又通过Spiders Middlewares(通过porcess_spider_output函数)；
Engine接管返回的信息，如果使Item，将它传给Items Pipeline中；如果是Requests,将它传给Scheduler，持续爬虫；
反复第三步，直至没有任何须要爬取的数据

对于python的材料，小伙伴能够私信我“113”噢