关于nodejs爬虫:浅尝一下Node爬虫吧～

作者：

在

新建一个文件夹，这里我命名为“爬”。
```
mkdir pa
```

初始化一个工程，并装置相干模块。

cd pa
// 装置package.json
npm init
// 装置cheerio，用来在服务端应用jq语法操作dom
npm install cheerio --save
// 装置request，用来发送网络申请
npm install request --save

新建文件命名为app.js，依照需要爬取数据，并保留到data.txt。

const http = require('http')
const fs = require('fs')
const cheerio = require('cheerio')

function getData(url, title) {
  http.get(url, function(res) {
   let html = ''
   res.setEncoding('utf-8')
   res.on('data', function(chunk) {
     html += chunk
   })
   res.on('end', function() {
     const $ = cheerio.load(html)
     // 按页面dom构造获取你须要的数据
     const content = `\n\n\n\n\n\n--------布告【${title}】的内容---------\n\n` + $('.xq4').text().trim() + `\n\n--------布告【${title}】的内容完结喽---------\n\n\n`

     fs.appendFile('./datas/data.txt', content, 'utf-8', function(err) {
       if (err) {
         console.log(err);
       }
     })
   })
  })
}

// 依照理论状况编写申请
http.get(`接口地址`, function(res) {
  res.setEncoding('utf-8')
  res.on('data', function(res) {
   res = JSON.parse(res)
   res.data.forEach(item => {
     const url = `页面地址带上接口返回的参数${item.id}`
     getData(url, item.title)
   });
  })
})

执行node app.js，一个超级简略的爬虫就实现了～

评论

发表回复取消回复

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理。

更多文章