关于后端:一个灵活的-nodejs-爬虫库-xcrawl

x-crawl

x-crawl 是一个灵便的 nodejs 爬虫库。

如果对您有帮忙，能够给 x-crawl 存储库点个 Star 反对一下。

特色

只需简略的配置即可抓取页面、JSON、文件资源等等。
内置 puppeteer 爬取页面，并用采纳 jsdom 库对页面解析。
反对异步/同步形式爬取数据。
反对 Promise/Callback 形式获取后果。
轮询性能，定时爬取。
拟人化的申请间隔时间。
应用 TypeScript 编写，领有的类型提醒，提供泛型。

跟 puppeteer 的关系

crawlPage API 外部应用 puppeteer 库来帮忙咱们爬取页面。

咱们能够做以下操作:

生成页面的屏幕截图和 PDF。
抓取 SPA（单页应用程序）并生成预渲染内容（即“SSR”（服务器端渲染））。
自动化表单提交、UI 测试、键盘输入等。

示例

定时爬取: 每隔一天就获取 bilibili 国漫主页的轮播图片为例:

// 1.导入模块 ES/CJS
import path from 'node:path'
import xCrawl from 'x-crawl'

// 2.创立一个爬虫实例
const myXCrawl = xCrawl({
  timeout: 10000, // 申请超时工夫
  intervalTime: { max: 3000, min: 2000 } // 管制申请频率
})

// 3.设置爬取工作
// 调用 startPolling API 开始轮询性能，每隔一天会调用回调函数
myXCrawl.startPolling({ d: 1 }, () => {
  // 调用 crawlPage API 爬取 Page
  myXCrawl.crawlPage('https://www.bilibili.com/guochuang/').then((res) => {
    const { browser, jsdom } = res // 默认应用了 JSDOM 库解析 Page

    // 获取轮播图片元素
    const imgEls = jsdom.window.document.querySelectorAll('.chief-recom-item img')

    // 设置申请配置
    const requestConfig = []
    imgEls.forEach((item) => requestConfig.push(`https:${item.src}`))

    // 调用 crawlFile API 爬取图片
    myXCrawl.crawlFile({ 
      requestConfig, 
      fileConfig: { storeDir: path.resolve(__dirname, './upload') } 
    })
      
    // 敞开浏览器
    browser.close()
  })
})

运行成果:

留神: 请勿随便爬取，爬取前可查看 robots.txt 协定。这里只是为了演示如何应用 x-crawl 。

关于后端:一个灵活的-nodejs-爬虫库-xcrawl

x-crawl

特色

跟 puppeteer 的关系

示例

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于后端:一个灵活的-nodejs-爬虫库-xcrawl

x-crawl

特色

跟 puppeteer 的关系

示例

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复