关于python:不用代码也能轻松抓取网页数据只要用了这个工具

33次阅读

共计 914 个字符,预计需要花费 3 分钟才能阅读完成。

@[toc]

文章首发:https://mp.weixin.qq.com/s/tJ…

web scraper

简介:

Web Scraper分为 chrome 插件和云服务两种,云服务是免费的,chrome 插件是收费的,这里说的就是 chrome 插件这种。
Web Scraper插件,能够让你以“所见即所得”的形式筛选要提取的网页数据,造成模版,当前能够随时执行该模版,并且执行后果能够导出成 Csv 格局。
web scraper 比拟相似 selenium 和火车头浏览器,不过 web scraper 性能要少的多,不过更加玲珑,学习老本更低

长处

  • 抓取须要登录的数据较不便,因为这个插件是运行在浏览器上的。
  • 只有抓取频率慢一点,被网站屏蔽的概率较小,也因为是浏览器的起因,这就像是实在的用户拜访一样。
  • 学习成本低

毛病

  • 如同并不能做验证码辨认
  • 抓取效率较低,绝对于爬虫程序来说,Web scraper 没法大并发,疾速切换 IP 等,所以大量级的数据抓取用 Web Scrpaer 不适宜,缓缓抓大几千网页还是能够。
  • 插件自身是不反对配置定时工作的,云服务提供了这种性能,不过是免费的,到是能够尝试应用 Python 驱动谷歌来进而来操作 web scraper 的定时

下载地址:

https://www.webscraper.io/

crx 文件:jnhgnonknehpejjnehehllkliplmbmhn_0_2_0_18.crx

操作

装置

谷歌浏览器

  1. 关上 google 浏览器,进入利用

  1. 点击网上利用商店

  1. 输入框搜寻 web scraper,点击 增加到 chrome

  1. 装置实现

火狐浏览器

  1. 点击右上角的菜单按钮,而后点击进入 web 开发者

  1. 点击获取更多工具

  1. 在搜寻框里输出 web scraper 进行搜寻

  1. 点击增加到 Firefox

应用阐明

  1. 进入谷歌浏览器,按 F12 进入开发者模式
  2. 装置好 web scraper 插件 之后呢,会在最初呈现 web scraper 标示

  1. 点击进入web scraper

  1. 首先,咱们点击create new sitemaps –>create sitemaps,来创立一个爬虫我的项目
  2. 输出爬虫名称和须要采集的 url,点击创立我的项目

  1. 点击 Add new selector 创立一个选择器

  1. 配置相干参数

  1. 运行爬虫,查看数据

关注我获取更多内容

正文完
 0