共计 700 个字符,预计需要花费 2 分钟才能阅读完成。
项目名称:Crawlab
我的项目作者:tikazyq
开源许可协定:BSD-3-Clause
我的项目地址:https://gitee.com/tikazyq/crawlab
我的项目简介
Crawlab 是一款基于 Golang 的分布式爬虫治理平台,反对 Python、NodeJS、Go、Java、PHP 等多种编程语言以及多种爬虫框架。
Crawlab 次要解决的是大量爬虫治理艰难的问题 ,例如须要监控上百个网站的参杂 scrapy 和 selenium 的我的项目不容易做到同时治理,而且命令行治理的老本十分高,还容易出错。Crawlab 反对任何语言和任何框架,配合任务调度、工作监控,很容易做到对成规模的爬虫我的项目进行无效监控治理。
我的项目架构
Crawlab 的架构包含了一个主节点(Master Node)和多个工作节点(Worker Node),以及负责通信和数据贮存的 Redis 和 MongoDB 数据库。
前端利用向主节点申请数据,主节点通过 MongoDB 和 Redis 来执行工作派发调度以及部署,工作节点收到工作之后,开始执行爬虫工作,并将工作后果贮存到 MongoDB。架构绝对于 v0.3.0 之前的 Celery 版本有所精简,去除了不必要的节点监控模块 Flower,节点监控次要由 Redis 实现。
我的项目截图
登录
首页
节点列表
节点拓扑图
爬虫列表
爬虫概览
爬虫剖析
爬虫文件编辑
工作抓取后果
工作日志
定时工作
音讯告诉
目前该我的项目曾经更新至 0.5.1 版本,如果你看了介绍后想要上手试一试它的体现如何,那么就点击前面的链接,返回我的项目主页看看具体的部署办法和流程吧:https://gitee.com/tikazyq/crawlab