上天的Node.js之爬虫篇 15行原生代码搞定京东资源【0基础深入浅出】

作者：

jiezi

在

javascript

难道爬虫只能用 python 做？不，我们上天的 Node.js 也可以做！

需要准备的包

Node.js的最新版本下载地址 Node.js官网

npm 包管理器下载下载最新的官网版本 Node.js 会自带 npm

npm的第三方包 puppeteer 在对应的js文件内运行命令行工具 npm i puppeteer -D 即可

爬虫在获取某些有保护机制的网页时可能会失效
基础版代码复制过去使用 node 文件名就可以运行获取爬虫数据了
const puppeteer = require(‘puppeteer’); // 引入依赖
(async () => { //使用async函数完美异步
const browser = await puppeteer.launch(); //打开新的浏览器
const page = await browser.newPage(); // 打开新的网页
await page.goto(‘https://www.jd.com/’); //前往里面 ‘url’ 的网页
const result = await page.evaluate(() => { //这个result数组包含所有的图片src地址
let arr = []; //这个箭头函数内部写处理的逻辑
const imgs = document.querySelectorAll(‘img’);
imgs.forEach(function (item) {
arr.push(item.src)
})
return arr
});
await browser.close()
})()

这个 puppeteer 的包，替我们开启了另一个浏览器，重新去开启网页，获取它们的数据。

发表回复取消回复

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理。

上天的Node.js之爬虫篇 15行原生代码搞定京东资源【0基础深入浅出】

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

上天的Node.js之爬虫篇 15行原生代码搞定京东资源 【0基础深入浅出】

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

上天的Node.js之爬虫篇 15行原生代码搞定京东资源【0基础深入浅出】

发表回复取消回复