关于selenium:爬虫pythonseleniumfirefox使用与部署详解

46次阅读

共计 5143 个字符,预计需要花费 13 分钟才能阅读完成。

我的幻想,值得我自己去争取,我明天的生存,绝不是我昨天生存的淡漠剽窃。—— 司汤达《红与黑》

一. 概述

自己并不是业余爬虫工程师,只是对爬虫感兴趣学习过 requestsscrapypython 库用来爬取一些网站数据,最近刚好因为须要,又开始做一些爬虫相干的工作,写本文的目标是将本人学习过程和遇到的问题记录下来,一方面坚固学习的常识,另一方面心愿对遇到同样问题的敌人提供一些帮忙。

本文次要从以下几个方面介绍(这也是本人学习的过程):

  1. 为什么要应用 selenium
  2. 传统形式配置应用 selenium

二. 为什么要应用 selenium

在应用爬虫工具比方 requests 时候,应用 requests.get(url)命令获取网页内容,发现没有咱们须要的内容,那是因为有些网页是前后端拆散,须要浏览器执行 js 脚本通过 ajax 申请获取数据再渲染到页面,间接申请这个页面地址的话,失去的 html 下面是没有数据的。有些网站的网页是通过 js 生成的,并非原生的 HTML 代码,这其中并不蕴含 Ajax 申请。

如何解决这个问题呢?通常状况下能够剖析 js 脚本,找到调用的接口,间接申请接口获取数据,然而这些接口有加密或者验证,申请接口是比拟麻烦的。对于须要执行 js 脚本能力生成页面的网站是无奈间接通过接口获取数据的,为了不便,咱们能够间接应用 selenium +(浏览器驱动)firefox 模仿浏览器的行为,通过这个工具就能够执行 js 脚本获取到整个网页的残缺数据。

selenium 是一个自动化测试工具

具体内容及应用能够查看官网文档:https://www.selenium.dev/docu…

比方今日头条新闻网页的数据数据通过算法加密,无奈间接申请接口,须要破解它的加密规定,网上有很多大佬写过如果抓取今日头条的数据,能够自行百度查找,总之有很多坑很麻烦,前面会介绍如何应用 selenium 抓取今日头条的数据。

大略晓得了应用 selenium 能够获取任何网页中的数据,然而应用 selenium 存在的毛病如下:

  1. 效率较低

    每一次申请相当于要关上一次浏览器,这个启动效率绝对于间接调用接口来说是非常低的,通常须要几秒的工夫。

  2. 资源节约

    selenium 模仿浏览器的行为,大量申请会极其耗费资源

三. 传统形式配置应用 selenium

1. 在 windows 中配置 selenium

这里次要演示应用 python + selenium 来爬取数据,所以上面只会介绍 python 的装置形式,其余装置形式能够查看官网文档。

装置 Selenum 库

应用上面的命令装置 selenium 库:

pip install selenium

装置 firefox 浏览器

firefox 下载地址:http://www.firefox.com.cn/dow…

依据须要下载对应环境的安装包,因为这里是在 windows 中配置,所以下载 windows 的。下载实现后,双击 .exe文件,点击 下一步实现装置。

装置 firefox 浏览器驱动

装置好浏览器之后,还须要装置浏览器的驱动能力是浏览器实现相应的操作。因为这里是应用的 firefox 浏览器,所以须要装置其对应的驱动 geckodriver。

如果没有装置 geckodriver 这个驱动,当应用如下代码运行的时候:

import time
from selenium.webdriver import Firefox
from selenium import webdriver
driver = webdriver.Firefox()
driver.get("https://www.toutiao.com/a6969138023774667264/")
time.sleep(2)
html = driver.page_source
print(html)
driver.quit()

会报出如下谬误:

FileNotFoundError: [WinError 2] 零碎找不到指定的文件。Traceback (most recent call last):
    raise WebDriverException(selenium.common.exceptions.WebDriverException: Message: 'geckodriver' executable needs to be in PATH. 

对于 geckodriver 官网介绍如下:

geckodriver:应用 W3C WebDriver 兼容客户端与基于 Gecko 的浏览器交互的代理。

该程序提供了 WebDriver 协定形容的 HTTP API 来与 Gecko 浏览器进行通信,例如 Firefox。它通过充当本地端和近程端之间的代理将调用转换为 Marionette 近程协定。

geckodriver 下载地址:https://github.com/mozilla/ge…

1. 请依据零碎版本抉择下载,如下图所示

2. 下载解压后将 getckodriver.exe 增加到 Path 环境变量中。

如果不想增加到环境变量中,还能够在创立 firefox 驱动实例的时候指定 geckodirver 的地位:

webdriver.Firefox(executable_path="E:/Downloads/geckodriver/geckodriver.exe")

3. 增加 getckodriver 到环境变量中须要重启 cmd 或者 idea

其余浏览器的驱动下载地址

浏览器 反对的操作系统 维护者 下载 问题追踪
Chromium/Chrome Windows/macOS/Linux 谷歌 下载 问题
火狐 Windows/macOS/Linux Mozilla 下载 问题
Edge Windows 10 微软 下载 问题
Internet Explorer Windows Selenium 项目组 下载 问题
Safari macOS El Capitan 及更高版本 苹果 内置 问题
Opera Windows/macOS/Linux Opera 下载 问题

2. 在 linux 中配置 selenium

在 linux 中的配置和 windows 的配置步骤一样,上面简略介绍一下。

装置 Selenum 库

应用上面的命令装置 selenium 库:

pip install selenium

装置 firefox 浏览器

firefox 下载地址:http://www.firefox.com.cn/dow…

应用如下命令下载 linux 版本的 firefox 浏览器:

wget https://download-ssl.firefox.com.cn/releases/firefox/esr/91.0/zh-CN/Firefox-latest-x86_64.tar.bz2

下载实现后应用上面的命令解压失去 Firefox-latest-x86_64.tar

bunzip2 -d Firefox-latest-x86_64.tar.bz2

再次应用上面的命令解压:

tar -xvf Firefox-latest-x86_64.tar

装置 firefox 浏览器驱动

geckodriver 驱动下载地址:https://github.com/mozilla/ge…

应用上面的命令下载 linux 零碎的驱动:

wget https://github.com/mozilla/geckodriver/releases/download/v0.29.1/geckodriver-v0.29.1-linux64.tar.gz

解压后将 geckodriver 寄存至 /usr/local/bin/ 门路下即可

tar -zxvf geckodriver-v0.29.1-linux64.tar.gz
cp geckodriver /usr/local/bin/

同理对于 IE 和 Chrome 浏览器,IEDriverServer,chromedriver 也是雷同的装置办法

四. python + selenium 获取今日头条数据

上面的代码是依据 url 获取今日头条新闻中的 题目、公布工夫、起源、注释内容、图片地址,具体阐明查看代码正文:

from lxml import etree
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC  # 和上面 WebDriverWait 一起用的
from selenium.webdriver.support.wait import WebDriverWait


def html_selenium_firefox(url):
    """
    依据 url 应用 selenium 获取网页源码
    :param url: url
    :return: 网页源码
    """
    opt = webdriver.FirefoxOptions()
    # 设置无界面
    opt.add_argument("--headless")
    # 禁用 gpu
    opt.add_argument('--disable-gpu')
    # 指定 firefox 的装置门路,如果配置了环境变量则不需指定
    firefox_binary = "C:\\Program Files (x86)\\Mozilla Firefox\\firefox.exe"
    # 指定 geckodirver 的装置门路,如果配置了环境变量则不需指定
    executable_path = "E:\\Downloads/geckodriver\\geckodriver.exe"
    driver = webdriver.Firefox(firefox_binary=firefox_binary, executable_path=executable_path, options=opt)
    # 发送申请
    driver.get(url)
    # 显式期待:显式地期待某个元素被加载
    wait = WebDriverWait(driver, 20)
    wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'article-content')))
    wait.until(EC.presence_of_element_located((By.TAG_NAME, 'span')))
    # 获取网页源码
    html = driver.page_source
    # 敞开浏览器开释资源
    driver.quit()
    return html


def get_news_content(url):
    html = html_selenium_firefox(url)
    tree = etree.HTML(html)
    title = tree.xpath('//div[@class="article-content"]/h1/text()')[0]
    # xpath 查找没有 class 的元素:span[not(@class)]
    pubtime = tree.xpath('//div[@class="article-meta mt-4"]/span[not(@class)]/text()')[0]
    # xpath 查找 class="name" 的元素:span[@class="name"]
    source = tree.xpath('//div[@class="article-meta mt-4"]/span[@class="name"]/a/text()')[0]
    # xpath 某个标签中的所有元素://div
    content = tree.xpath('//article')[0]
    # 解决 content 乱码问题
    content = str(etree.tostring(content, encoding='utf-8', method='html'), 'utf-8')
    # 提取 content 中所有图片的地址
    images = etree.HTML(content).xpath('//img/@src')

    result = {
        "title": title,
        "pubtime": pubtime,
        "source": source,
        "content": content,
        "images": images,
    }
    return result


if __name__ == '__main__':
    url = "https://www.toutiao.com/a6969138023774667264/"
    result = get_news_content(url)
    print(result)

对于 selenium 和 xpath 的更多应用,能够查看官网文档,这里不再具体阐明。

参考文章:

https://blog.csdn.net/rhx_qiu…

https://github.com/mozilla/ge…

https://www.selenium.dev/docu…

正文完
 0