一、综合训练-爬取91看剧视频
1.找到想要爬取的视频地位
关上哲仁王后第一集视频,关上页面源代码,可看到视频m3u8链接。
应用开发者工具能够看到其m3u8文件内容
2.获取视频页面源代码。
3.应用re解析从页面源代码中提取m3u8链接。
4.下载m3u8文件
5.解析m3u8文件。
二、selenium概念介绍
Selenium是一个用于Web应用程序测试的工具。Selenium测试间接运行在浏览器中,就像真正的用户在操作一样。
咱们要应用Selenium进行一些网页中的操作,还须要下载浏览器驱动。Chrome驱动下载地址http://npm.taobao.org/mirrors...。抉择与以后应用的Chrome版本雷同版本,若没有雷同的版本号,则抉择最靠近的上一版本。将下载的驱动解压后保留在python解释器所在的文件夹中。
测试驱动是否可用,应用selenium启动浏览器。
三、Selenium的操作及爬取拉钩信息。
1.关上拉勾网。
2.找到某个元素点击,这里以全国为例,复制其xpath地址。
3.找到输入框,输出python,回车进行搜寻,须要导入Keys。
4.查找所要数据的地位,进行提取。
(1)找到所有存放数据的<li>。
(2)找到每条想要元素地位取得其xpath。
(3)进行数据提取。
5.窗口间切换,获取新窗口中内容。
敞开子页面,回到主页面视角。
6.解决下拉菜单,实战爬取艺恩数据的年度票房信息。
7.应用超级鹰解决超级鹰登录验证码
(1)实现注册登录,在用户核心查看软件ID,新注册账号需本人生成一个软件ID
(2)下载示例代码,在开发文档中抉择对应语言,我这里选python。
(3)将代码及示例图片复制到所建我的项目中进行测试。
(4)应用超级鹰解决超级鹰登录验证码。