关于python:Selenium爬虫实践ajax请求抓包浏览器退出

前言

最近在搞公司外部零碎，累的一批，须要从另一个外部零碎导出数据存到数据库做剖析，有大量的数据采集工作，又没方法去间接拿到那个零碎的接口，太难了，只能爬虫，然而cookie还常常生效，为了不每次登录生效就来找我从新注入Cookie，我写了一个手机版的网页，用来管制后盾的selenium主动登录，截取token和cookie。

ajax申请抓包计划

搜寻材料的过程真的苦楚，不过还好这工夫没有白花，最终还是解决了问题……

依据找到的材料，有以下几种办法能够在Selenium中抓取ajax申请中的数据

应用本地代理：browsermob-proxy （本文采纳的办法）
应用selenium的执行js性能注入 ajax hook 并执行，而后本地开一个服务器接管拦挡到的ajax数据（见第三个参考资料）
用第三方库selenium-wire，这个是一个GitHub上的开源我的项目，能够间接截取response_code和body，原理应该走的也是代理
开启selenium的性能抓取，在性能日志外面能够做改变，以拦挡response_body（详见第一个参考资料）

应用本地代理

本文应用Browsermob-Proxy这个代理服务器，这个是用Java写的，有一个python封装的接口包能够不便交互……

先去下载：https://github.com/lightbody/...

装置python包：

pip install browsermob-proxy

在代码中应用，这里我截取了我的项目的局部代码，轻易看看就好了，残缺代码能够看官网文档或者参考资料~

有几个须要留神的坑的中央，我在代码中标出了

# 创立代理服务器self.server = Server(    # Windows就是bat，如果Linux就是另一个不带后缀名的    r'path\bin\browsermob-proxy.bat',    # 这里能够自定义端口    options={'port': 9090})# 这里启动服务器，等会机会要关掉，不然下次用就端口占用抵触了self.server.start()# 留神这里肯定要 trustAllServers 不然等会selenium会报 error_tunnel 谬误self.proxy = self.server.create_proxy(params={'trustAllServers': 'true'})# 设置selenium的代理options = ChromeOptions()options.add_argument('--ignore-certificate-errors')options.add_argument(f'--proxy-server={self.proxy.proxy}')self.driver = webdriver.Chrome(options=options)

应用代理来进行抓包，我这个我的项目须要在ajax申请的header外面提取出token和cookie，截取了要害局部的代码如下：

self.proxy.new_har('抓包名称 本人起一个', options={'captureHeaders': True, 'captureContent': True})# 找到须要点击的元素elem_query = self.driver.find_element_by_css_selector(elem_css_selector)elem_query.click()# 点击按钮后期待 并把数据取出来time.sleep(5)result = self.proxy.hardata = {}for entry in result['log']['entries']:    url = entry['request']['url']    # 依据URL找到数据接口    if 'xxx/query' in url:        _response = entry['response']        _content = _response['content']['text']        for item in entry['request']['headers']:            # 提取出header外面的 token            if item['name'] == 'Authorization':                data['authorization'] = item['value']            # 提取出header外面的 cookie            if item['name'] == 'Cookie':                data['cookie'] = item['value']        breakprint(data)

以上代码同样不是残缺代码，不过曾经将具体抓包的过程残缺表达出来，须要的同学能够依据本人的理论需要进行编码，只有能抓到数据，所有都好说~

浏览器和代理服务器退出

这个没啥好写的，然而也有一个小坑，水一下吧~

从下面的代码里也能够看进去，我写了一个类来操作Selenium，程序执行完了必定要把代理和服务器关了，不然selenium会留着一个 chromedriver.exe 的过程在后盾占用资源，工夫一长，零碎内存都满了。

我在类的__del__办法中退出了敞开代理服务器和浏览器的代码，如下：

def __del__(self):    print('SeleniumFxxkUnicom has been deleted.')    self.proxy.close()    self.server.stop()    for win in self.driver.window_handles:        self.driver.switch_to.window(win)        self.driver.close()    os.system('taskkill /im chromedriver.exe /F')

留神这个循环的driver.close()，在__del__里是没方法失常执行driver.quit()的，按理说quit才是最好的退出办法，然而他还要导入什么鬼乌七八糟的模块，导致我在这个__del__里执行失败，于是只好曲线救国，先把全副标签页敞开，而后用系统命令完结掉过程…… 有点硬编码了，就这样吧，累了

参考资料

利用selenium抓取网页的ajax申请：https://www.cnblogs.com/fish-...
Selenium爬虫-获取浏览器Network申请和响应：http://www.spiderpy.cn/blog/d...
如何用 Hook 实时处理和保留 Ajax 数据
教你轻松截获 Selenium 中的 Ajax 数据
selenium框架中driver.close()和driver.quit()敞开浏览器：https://blog.csdn.net/yangfen...

欢送交换

程序设计实验室专一于互联网热门新技术摸索与团队麻利开发实际，在公众号「程序设计实验室」后盾回复 linux、flutter、c#、netcore、android、kotlin、java、python 等可获取相干技术文章和材料，同时有任何问题都能够在公众号后盾留言~

博客园：https://www.cnblogs.com/deali/
打代码直播间：https://live.bilibili.com/11883038
知乎：https://www.zhihu.com/people/dealiaxy