node爬虫简单demo

1.安装node

2.新建一个文件夹,文件夹里新建一个game.js

3.安装模块

在命令行输入安装模块命令:npm install cheerio sync-request –save

4.这里以taptap网站排行榜为例:https://www.taptap.com/top/do…

5.想爬这个排行榜的榜单名字,检查元素发现dom结构如下

4.js文件代码如下

var request = require(‘sync-request’);//获取网页内容

var cheerio = require(‘cheerio’);//筛选网页内容

url = ‘https://www.taptap.com/top/do…’;//爬虫网站

var html = ”;

html = request(‘GET’, url).getBody().toString();

var $ = cheerio.load(html);

var gameName = $(‘.top-cardg-middle>a>h4’).text();//获取游戏名称

console.log(gameName);

5.然后在文件夹路径下运行node game.js,结果如下

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理