Scrapy-Tips

概述

Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

  • Scrapy 1.1 开始支持 Python3。(2016上半年)
  • Scrapy 1.5 不再支持 Python 3.3。(2017下半年)
  • Scrapy 官网:https://scrapy.org/
  • Scrapy GitHub:https://github.com/scrapy/scrapy
  • Scrapy pypi:https://pypi.org/project/Scrapy/
  • Scrapy 官方文档:https://docs.scrapy.org/en/la…
  • Scrapy 中文网 1.5 文档:http://www.scrapyd.cn/doc/

硬核知识点

  • 队列中的请求个数(https://stackoverflow.com/que…)
# scrapy.core.scheduler.Scheduler
# spider
len(self.crawler.engine.slot.scheduler)
# pipeline 
len(spider.crawler.engine.slot.scheduler)
  • 当前正在网络请求的个数
# scrapy.core.engine.Slot.inprogress 就是个 set
# spider
len(self.crawler.engine.slot.inprogress)
# pipeline 
len(spider.crawler.engine.slot.inprogress)

架构图

  • Scrapy 1.1 架构图

  • Scrapy 1.7 架构图

本文出自 walker snapshot

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理