Scrapy-Tips

49次阅读

共计 724 个字符,预计需要花费 2 分钟才能阅读完成。

概述

Scrapy 是 Python 开发的一个快速、高层次的屏幕抓取和 web 抓取框架,用于抓取 web 站点并从页面中提取结构化的数据。Scrapy 用途广泛,可以用于数据挖掘、监测和自动化测试。

  • Scrapy 1.1 开始支持 Python3。(2016 上半年)
  • Scrapy 1.5 不再支持 Python 3.3。(2017 下半年)
  • Scrapy 官网:https://scrapy.org/
  • Scrapy GitHub:https://github.com/scrapy/scrapy
  • Scrapy pypi:https://pypi.org/project/Scrapy/
  • Scrapy 官方文档:https://docs.scrapy.org/en/la…
  • Scrapy 中文网 1.5 文档:http://www.scrapyd.cn/doc/

硬核知识点

  • 队列中的请求个数(https://stackoverflow.com/que…)
# scrapy.core.scheduler.Scheduler
# spider
len(self.crawler.engine.slot.scheduler)
# pipeline 
len(spider.crawler.engine.slot.scheduler)
  • 当前正在网络请求的个数
# scrapy.core.engine.Slot.inprogress 就是个 set
# spider
len(self.crawler.engine.slot.inprogress)
# pipeline 
len(spider.crawler.engine.slot.inprogress)

架构图

  • Scrapy 1.1 架构图

  • Scrapy 1.7 架构图

本文出自 walker snapshot

正文完
 0