乐趣区

关于golang:支持多种语言框架的分布式爬虫管理平台爬虫本应如此简单

项目名称:Crawlab

我的项目作者:tikazyq

开源许可协定:BSD-3-Clause

我的项目地址:https://gitee.com/tikazyq/crawlab

我的项目简介

Crawlab 是一款基于 Golang 的分布式爬虫治理平台,反对 Python、NodeJS、Go、Java、PHP 等多种编程语言以及多种爬虫框架。

Crawlab 次要解决的是大量爬虫治理艰难的问题 ,例如须要监控上百个网站的参杂 scrapy 和 selenium 的我的项目不容易做到同时治理,而且命令行治理的老本十分高,还容易出错。Crawlab 反对任何语言和任何框架,配合任务调度、工作监控,很容易做到对成规模的爬虫我的项目进行无效监控治理。

我的项目架构

Crawlab 的架构包含了一个主节点(Master Node)和多个工作节点(Worker Node),以及负责通信和数据贮存的 Redis 和 MongoDB 数据库。

前端利用向主节点申请数据,主节点通过 MongoDB 和 Redis 来执行工作派发调度以及部署,工作节点收到工作之后,开始执行爬虫工作,并将工作后果贮存到 MongoDB。架构绝对于 v0.3.0 之前的 Celery 版本有所精简,去除了不必要的节点监控模块 Flower,节点监控次要由 Redis 实现。

我的项目截图

登录

首页

节点列表

节点拓扑图

爬虫列表

爬虫概览

爬虫剖析

爬虫文件编辑

工作抓取后果

工作日志

定时工作

音讯告诉

目前该我的项目曾经更新至 0.5.1 版本,如果你看了介绍后想要上手试一试它的体现如何,那么就点击前面的链接,返回我的项目主页看看具体的部署办法和流程吧:https://gitee.com/tikazyq/crawlab

退出移动版