一、综合训练-爬取91看剧视频

    1.找到想要爬取的视频地位

    关上哲仁王后第一集视频,关上页面源代码,可看到视频m3u8链接。

    应用开发者工具能够看到其m3u8文件内容

    2.获取视频页面源代码。
    

    3.应用re解析从页面源代码中提取m3u8链接。

    4.下载m3u8文件
     

    5.解析m3u8文件。
  
                

二、selenium概念介绍

    Selenium是一个用于Web应用程序测试的工具。Selenium测试间接运行在浏览器中,就像真正的用户在操作一样。
    咱们要应用Selenium进行一些网页中的操作,还须要下载浏览器驱动。Chrome驱动下载地址http://npm.taobao.org/mirrors...。抉择与以后应用的Chrome版本雷同版本,若没有雷同的版本号,则抉择最靠近的上一版本。将下载的驱动解压后保留在python解释器所在的文件夹中。
    测试驱动是否可用,应用selenium启动浏览器。
       

三、Selenium的操作及爬取拉钩信息。

    1.关上拉勾网。
          

    2.找到某个元素点击,这里以全国为例,复制其xpath地址。

    3.找到输入框,输出python,回车进行搜寻,须要导入Keys。
      

    4.查找所要数据的地位,进行提取。
    (1)找到所有存放数据的<li>。

    (2)找到每条想要元素地位取得其xpath。


    (3)进行数据提取。

    5.窗口间切换,获取新窗口中内容。

    敞开子页面,回到主页面视角。
          

    6.解决下拉菜单,实战爬取艺恩数据的年度票房信息。

       

    7.应用超级鹰解决超级鹰登录验证码

    (1)实现注册登录,在用户核心查看软件ID,新注册账号需本人生成一个软件ID

    (2)下载示例代码,在开发文档中抉择对应语言,我这里选python。

        

    (3)将代码及示例图片复制到所建我的项目中进行测试。
                      

    (4)应用超级鹰解决超级鹰登录验证码。