Node爬虫练手项目

102次阅读

共计 1204 个字符,预计需要花费 4 分钟才能阅读完成。

First
项目地址:Crawler-for-Github-Trending 项目中基本每一句代码都写有注释 (因为就这么几行????),适合对 Node 爬虫感兴趣的同学入入门。
Introduction
50 lines, minimalist node crawler for Trending. 一个 50 行的 node 爬虫,一个简单的 axios, express, cheerio 体验项目。
Usage
首先保证电脑已存在 node 环境,然后
1. 拉取本项目
git clone https://github.com/ZY2071/Crawler-for-Github-Trending.git
cd Crawler-for-Github-Trending
npm i
node index.js
2. 或者下载本项目压缩包,解压
cd Crawler-for-Github-Trending-master // 进入项目文件夹
npm i
node index.js
Examples
当启动项目后,可以看到控制台输出
Listening on port 3000!
此时打开浏览器,进入本地服务 http://localhost:3000/daily
http://localhost:3000/time-language // time 表示周期,language 代表语言 例如:

http://localhost:3000/daily // 代表今日 可选参数:weekly,monthly
http://localhost:3000/daily-JavaScript // 代表今日的 java 分类 可选参数:任意语言
稍微等待即可看到爬取完毕的返回数据:
[
{
“title”: “lib-pku / libpku”,
“links”: “https://github.com/lib-pku/libpku”,
“description”: “ 贵校课程资料民间整理 ”,
“language”: “JavaScript”,
“stars”: “14,297”,
“forks”: “4,360”,
“info”: “3,121 stars this week”
},
{
“title”: “SqueezerIO / squeezer”,
“links”: “https://github.com/SqueezerIO/squeezer”,
“description”: “Squeezer Framework – Build serverless dApps”,
“language”: “JavaScript”,
“stars”: “3,212”,
“forks”: “80”,
“info”: “2,807 stars this week”
},

]
More
本项目仅供爬取体验,每次访问都会实时爬取数据,所以数据返回速度会比较慢,实际操作应该是定时爬取数据然后将数据存进数据库,数据从数据库返回从而提高数据返回效率。
但项目很基础,可以作为以上各个 node 模块最基础的练手使用,希望可以帮到大家 ????

正文完
 0