关于python:干货-2020十大Python面试题你会几个

44次阅读

共计 2438 个字符,预计需要花费 7 分钟才能阅读完成。

0 遇到过得反爬虫策略以及解决办法?

  1. 1. 通过 headers 反爬虫
  2. 基于用户行为的发爬虫:(同一 IP 短时间内拜访的频率)
  3. 动静网页反爬虫 (通过 ajax 申请数据,或者通过 JavaScript 生成)
  4. 对局部数据进行加密解决的 (数据是乱码)

解决办法:

对于根本网页的抓取能够自定义 headers, 增加 headers 的数据 应用多个代理 ip 进行抓取或者设置抓取的频率升高一些,动静网页的能够应用 selenium + phantomjs 进行抓取 对局部数据进行加密的,能够应用 selenium 进行截图,应用 python 自带的 pytesseract 库进行辨认,然而比较慢最间接的办法是找到加密的办法进行逆向推理。

1 urllib 和 urllib2 的区别?

  • urllib 和 urllib2 都是承受 URL 申请的相干模块,然而 urllib2 能够承受一个 Request 类的实例来设置 URL 申请的 headers,urllib 仅能够承受 URL。urllib 不能够假装你的 User-Agent 字符串。
  • urllib 提供 urlencode() 办法用来 GET 查问字符串的产生,而 urllib2 没有。这是为何 urllib 常和 urllib2 一起应用的起因。

2 列举网络爬虫所用到的网络数据包,解析包?

  • 网络数据包 urllib、urllib2、requests
  • 解析包 re、xpath、beautiful soup、lxml

3 简述一下爬虫的步骤?

  1. 确定需要;
  2. 确定资源;
  3. 通过 url 获取网站的返回数据;
  4. 定位数据;
  5. 存储数据。

4 遇到反爬机制怎么解决?

反爬机制:

headers 方向 判断 User-Agent、判断 Referer、判断 Cookie。将浏览器的 headers 信息全副增加进去 留神:Accept-Encoding;gzip,deflate 须要正文掉

5 常见的 HTTP 办法有哪些?

  • GET:申请指定的页面信息,返回实体主体;
  • HEAD: 相似于 get 申请,只不过返回的响应中没有具体的内容,用于捕捉报头;
  • POST:向指定资源提交数据进行解决申请 (比方表单提交或者上传文件),。数据被蕴含在申请体中。
  • PUT: 从客户端向服务端传送数据取代指定的文档的内容;
  • DELETE:申请删除指定的页面;
  • CONNNECT:HTTP1.1 协定中预留给可能将连贯形式改为管道形式的代理服务器;
  • OPTIONS: 容许客户端查看服务器的性能;TRACE:回显服务器的申请,次要用于测试或者诊断。

6 说一说 redis-scrapy 中 redis 的作用?

它是将 scrapy 框架中 Scheduler 替换为 redis 数据库,实现队列治理共享。

长处:

  1. 能够充分利用多台机器的带宽;
  2. 能够充分利用多台机器的 IP 地址。

7 遇到的反爬虫策略以及解决办法?

  1. 通过 headers 反爬虫:自定义 headers,增加网页中的 headers 数据。
  2. 基于用户行为的反爬虫 (封 IP):能够应用多个代理 IP 爬取或者将爬取的频率升高。
  3. 动静网页反爬虫 (JS 或者 Ajax 申请数据):动静网页能够应用 selenium + phantomjs 抓取。
  4. 对局部数据加密解决 (数据乱码): 找到加密办法进行逆向推理。

8 如果让你来防备网站爬虫,你应该怎么来进步爬取的难度?

  1. 判断 headers 的 User-Agent;
  2. 检测同一个 IP 的拜访频率;
  3. 数据通过 Ajax 获取;
  4. 爬取行为是对页面的源文件爬取,如果要爬取动态网页的 html 代码,能够应用 jquery 去模拟写 html。

9 scrapy 分为几个组成部分?别离有什么作用?

分为 5 个局部;Spiders(爬虫类),Scrapy Engine(引擎),Scheduler(调度器),Downloader(下载器),Item Pipeline(解决管道)。

  • Spiders: 开发者自定义的一个类,用来解析网页并抓取指定 url 返回的内容。
  • Scrapy Engine: 管制整个零碎的数据处理流程,并进行事务处理的触发。
  • Scheduler:接管 Engine 收回的 requests,并将这些 requests 放入到解决列队中,以便之后 engine 须要时再提供。
  • Download:抓取网页信息提供给 engine,进而转发至 Spiders。
  • Item Pipeline: 负责解决 Spiders 类提取之后的数据。比方清理 HTML 数据、验证爬取的数据 (查看 item 蕴含某些字段)、查重 (并抛弃)、将爬取后果保留到数据库中

10 简述一下 scrapy 的根本流程?

scrapy 分为 9 个步骤:

  1. Spiders 须要初始的 start_url 或则函数 stsrt_requests, 会在外部生成 Requests 给 Engine;
  2. Engine 将 requests 发送给 Scheduler;
  3. Engine 从 Scheduler 那获取 requests, 交给 Download 下载;
  4. 在交给 Dowmload 过程中会通过 Downloader Middlewares(通过 process_request 函数);
  5. Dowmloader 下载页面后生成一个 response,这个 response 会传给 Engine,这个过程中又通过了 Downloader Middlerwares(通过 process_request 函数),在传送中出错的话通过 process_exception 函数;
  6. Engine 将从 Downloader 那传送过去的 response 发送给 Spiders 解决,这个过程通过 Spiders Middlerwares(通过 process_spider_input 函数);
  7. Spiders 解决这个 response,返回 Requests 或者 Item 两个类型,传给 Engine,这个过程又通过 Spiders Middlewares(通过 porcess_spider_output 函数);
  8. Engine 接管返回的信息,如果使 Item,将它传给 Items Pipeline 中;如果是 Requests, 将它传给 Scheduler,持续爬虫;
  9. 反复第三步,直至没有任何须要爬取的数据

对于 python 的材料,小伙伴能够私信我“113”噢

正文完
 0