puppeteer爬虫

jiezi

5 年前

利用空闲时间，学习了下 puppeteer 爬虫，我也想爬取下网上的资源

puppeteer.launch(options)

参数名称	参数类型	参数说明
ignoreHTTPSErrors	boolean	在请求的过程中是否忽略 Https 报错信息，默认为 false
headless	boolean	是否以“无头”的模式运行 chrome，也就是不显示 UI，默认为 true
executablePath	string	可执行文件的路径，Puppeteer 默认是使用它自带的 chrome webdriver, 如果你想指定一个自己的 webdriver 路径，可以通过这个参数设置
slowMo	number	使 Puppeteer 操作减速，单位是毫秒。如果你想看看 Puppeteer 的整个工作过程，这个参数将非常有用
args	Array(String)	传递给 chrome 实例的其他参数，比如你可以设置浏览器窗口大小具体参数
timeout	number	等待 chrome 实例启动的最长时间，默认是 3000ms，如果传入 0，则不限制时间
dumpio	boolean	是否将浏览器锦程 stdout 和 stderr 导入到 process.stdout 和 process.stderr 中，默认为 false
userDataDir	string	设置用户数据目录，默认 linux 是在~/.config 目录，window 默认在 C:Users{USER}AppDataLocalGoogleChromeUser Data, 其中 {USER} 代表当前登录的用户名
env	Object	指定对 chromium 可见的环境变量，默认为 process.env
devtools	boolean	是否为每个选项卡自动打开 DevTools 面板，这个选项只有当 headless 设置为 false 的时候有效

browser 对象 api

方法名	说明
browser.close()	返回一个 promise 对象，用于关闭浏览器
browser.newPage()	返回一个 promise 对象，创建一个 page 实例

page 对象

方法名	说明
page.goto(url[, options])	返回一个 promise 对象，url 是目标链接
page.waitForSelector()	等待某个选择器的元素加载之后，这个元素可以是异步加载的
page.evaluate(pageFunction[,args])	返回一个可序列化的普通对象，pageFunction 表示要在页面执行的函数，args 表示传入给 pageFunction 的参数

const puppeteer = require('puppeteer');

/* 爬虫的目标链接地址: 豆瓣电影 */
const url = `https://movie.douban.com/tag/#/?sort=R&range=0,10&tags=`;

const sleep = time => new Promise(resolve => {setTimeout(resolve, time);
});

(async () => {console.log('crawler start to visit the target address');

  /* dumpio 是否将浏览器进程 stdout 和 stderr 导入到 process.stdout 和 process.stderr 中 */
  const browser = await puppeteer.launch({args: ['--no-sandbox'],
    dumpio: false
  });
  const page = await browser.newPage();
  await page.goto(url, {waitUntil: 'networkidle2'});

  await sleep(3000);

  await page.waitForSelector('.more');

  for(let i = 0; i < 1; i++) {await sleep(3000);
    await page.click('.more');
  }

  const result = await page.evaluate(() => {
    let $ = window.$;
    let nodeItems = $('.list-wp a');
    let links = [];
    
    /* 获取对应的元素节点 */
    if(nodeItems.length >= 1) {nodeItems.each((index, item) => {let elem = $(item);
        let movieId = elem.find('div').data('id');
        let title = elem.find('.title').text();
        let rate = Number(elem.find('.rate').text());
        let poster = elem.find('img').attr('src').replace('s_ratio_poster','l_ratio_poster');

        links.push({
          movieId,
          title,
          rate,
          poster,
        })
      })
    }

    return links;
  });

  browser.close();
  console.log(result)
})();

const puppeteer = require('puppeteer');
const url = 'https://cn.vuejs.org/v2/guide/';
(async () => {const browser = await puppeteer.launch();
    const page = await browser.newPage();
    await page.goto(url, { waitUntil: 'networkidle0'});
    /* 选择你要输出的那个 PDF 文件路径，把爬取到的内容输出到 PDF 中，必须是存在的 PDF，可以是空内容，如果不是空的内容 PDF，那么会覆盖内容 */
    let pdfFilePath = './index.pdf';
    /* 根据你的配置选项，我们这里选择 A4 纸的规格输出 PDF，方便打印 */
    await page.pdf({
        path: pdfFilePath,
        format: 'A4',
        scale: 1,
        printBackground: true,
        landscape: false,
        displayHeaderFooter: false
    });
    browser.close();})()

正在努力学习中，若对你的学习有帮助，留下你的印记呗（点个赞咯 ^_^）

往期好文推荐：
- 使用 vue 开发移动端管理后台
- 实现单行及多行文字超出后加省略号
- node 之本地服务器图片上传
- 纯 css 实现瀑布流（multi-column 多列及 flex 布局）

puppeteer爬虫

1. 部分 api

2. 爬取电影网站

3. 爬取网站内容生成 pdf 文件