关于网页爬虫:爬取前端渲染网站网站vuereact

55次阅读

共计 456 个字符,预计需要花费 2 分钟才能阅读完成。

最近公司写爬虫 然而对于 前端渲染的网站 (vue,react)
然而 chromedp selenium 等又太重了
于是用 puppeteer koa2 写了一个 通用服务
https://github.com/dollarkillerx/marionette
docker 运行

docker run --name marionette -d -p3000:3000 dollarkiller/marionette:latest

简略说一下这个服务的 Restful API

GET /ssr?q=http://google.com

返回 respcode, html body, cookie 均为 指标网站的返回

咱们当初应用 Go 来调用下这个 API
Go 的 http client 举荐一下我本人写的 urllib
https://github.com/dollarkillerx/urllib

httpCode, bytes, err = urllib.Get("http://0.0.0.0:3000/ssr").Querys("q","http://google.com").Byte()

正文完
 0