关于python:Python爬虫教程三

31次阅读

共计 992 个字符,预计需要花费 3 分钟才能阅读完成。

一、解决 cookie,实战登录 17K 小说网

    局部网站须要登录能力获取所需数据,如此例咱们要获取小说网站书架数据,须要进行登录失去属于此账号信息。

    1. 会话(Session)跟踪是 Web 程序中罕用的技术,用来跟踪用户的整个会话。罕用的会话跟踪技术是 Cookie 与 Session。Cookie 通过在客户端记录信息确定用户身份,Session 通过在服务器端记录信息确定用户身份。
    2. 应用浏览器开发工具,找到登录所需网址。

    3. 应用 session 获取所要内容。
    

    4. 获取 cookie。
      

    5. 获取页面数据,应用 session 放弃登录状态。


    6. 第二种获取形式。


    咱们能够看到间接应用 requests 无奈进入登录状态的,然而咱们也可通过 cookie 解决这个问题。在浏览器开发工具中获取 cookie。


二、requests 解决防盗链,获取梨视频视频。

    抉择梨视频中任意视频,应用浏览器开发工具能够看到其视频链接,然而咱们无奈在页面源代码中找到视频下载链接

    刷新页面,能够在开发者工具中失去 Request URL 申请网址及 srcUrl 的网址。



    输出浏览器中,会呈现报错,咱们将正确的视频网址与此网址进行比照,可看到其前后均雷同,只有两头局部不同。

    找到不同地位的起源,将两个界面进行比照。

    上面进行视频的爬取。
    1. 拿到 contID
      
    2. 获取 videoStatus 返回 json


    呈现文章曾经下线的晋升,可内容是呈现在浏览器中的,咱们将解决防盗链的问题,防盗链次要为溯源,找到本次申请的上一级链接。



    筛选内容,获取 json。
       
    3. 对获取网址进行内容批改替换。
     

    4. 下载视频。
      

三、综合训练,爬取网易云音乐评论信息

    1. 应用开发者工具找到所需内容地位。

    2. 发现其数据为加密模式,依照其申请运行过程找到加密的地位。
    
    
    3. 找到未加密的参数


    4. 参考网易的逻辑找到其加密的逻辑,可发现须要 params,encSecKey 两个参数。


    5. 对应上述逻辑,找到 d,e,f,g 别离对应内容。



    6. 上面进行评论的爬取。



        
    7. 运行取得后果,失去网易云音乐歌曲评论信息。

正文完
 0