Scrapyd使用详解
目录 前言使用详解 安装启动项目发布相关API使用 查看服务进程状态项目发布版本调度爬虫取消任务获取上传的项目获取项目的版本获取项目的爬虫列表获取任务列表(Scrapyd 0.15版本以上)删除项目版本删除项目前言Scrapyd通常作为守护进程运行,它侦听运行爬虫的请求,并为每个请求生成一个进程,该进程基本上执行:scrapy crawl [myspider]。 Scrapyd还并行运行多个进程,将它们分配到max_proc和max_proc_per_cpu选项提供的固定数量的插槽中,启动尽可能多的进程来处理负载。 除了调度和管理进程之外,Scrapyd还提供了一个JSON web服务来上载新的项目版本(作为egg)和调度爬虫。 Scrapyd官方文档 https://scrapyd.readthedocs.i...划重点:通过api方式多进程执行请求,在网页端查看正在执行的任务,也能新建爬虫任务,和终止爬虫任务。 使用详解安装pip install scrapyd依赖的库及版本: Python 2.7 or aboveTwisted 8.0 or aboveScrapy 1.0 or abovesix启动在项目目录下,输入scrapyd即可运行,默认地址为http://localhost:6800 scrapyd官方详细配置文档说明:https://scrapyd.readthedocs.i...修改默认配置信息可以在项目下新建一个scrapyd.conf或者在scrapy.cfg中增加[scrapyd]: [scrapyd]# 网页和Json服务监听的IP地址,默认为127.0.0.1bind_address = 127.0.0.1# 监听的端口,默认为6800http_port = 6800# 是否打开debug模式,默认为offdebug = off# 每个CPU可启用的Scrapy 进程数,默认为4max_proc_per_cpu = 4# 可启用的最多进程数,默认为0.如果未设置或者设为0,则使用的最多进程数=CPU数量*max_proc_per_cpumax_proc = 0# 项目eggs生成目录,默认为项目目录下eggseggs_dir = eggs# 项目日志生成目录,默认为项目目录下logs,如果不想要生成日志,可以直接设置成空logs_dir = logsitems_dir =# 项目dbs生成目录,默认为项目目录下dbsdbs_dir = dbs# 爬取的items存储的文件夹(版本0.15.以上),默认为空,不存储。items_dir =# 每个爬虫保持的完成任务数,默认为5.(版本0.15.以上,以前版本中为logs_to_keep)jobs_to_keep = 5# 保持的完成任务进程数。默认为100.(版本0.14.以上)finished_to_keep = 100# 轮训请求队列的时间间隔。默认为5s,可以为浮点数poll_interval = 5.0# 启动子进程的模块。可以使用自定义runner = scrapyd.runner# 返回可用于twisted的application,可继承于Scrapyd添加和移除自己的组件和服务。 https://twistedmatrix.com/documents/current/core/howto/application.html查看更多application = scrapyd.app.applicationlauncher = scrapyd.launcher.Launcher# twisted的web资源,表示到scrapyd的接口。Scrapyd包含一个带有网站的界面,可以提供对应用程序的web资源的简单监视和访问。此设置必须提供twisted web资源的根类。webroot = scrapyd.website.Root项目发布部署主要分为两步: ...