22Python快速开发分布式搜索引擎Scrapy精讲scrapy模拟登陆和知乎倒立文字验证码识别

31次阅读

共计 6016 个字符,预计需要花费 16 分钟才能阅读完成。

【百度云搜索,搜各种资料:http://www.bdyss.cn】

【搜网盘,搜各种资料:http://www.swpan.cn】

第一步。首先下载,大神者也的倒立文字验证码识别程序

下载地址:https://github.com/muchrooms/…

注意:此程序依赖以下模块包

Keras==2.0.1
Pillow==3.4.2
jupyter==1.0.0
matplotlib==1.5.3
numpy==1.12.1
scikit-learn==0.18.1
tensorflow==1.0.1
h5py==2.6.0

numpy-1.13.1+mkl

我们用豆瓣园来加速安以上依赖装如:

pip install -i https://pypi.douban.com/simple h5py==2.6.0

如果是 win 系统,可能存在安装失败的可能,如果那个包安装失败,就到 http://www.lfd.uci.edu/~gohlk…  找到 win 对应的版本下载到本地安装,如:

pip install h5py-2.7.0-cp35-cp35m-win_amd64.whl

第二步,将者也的,验证码识别程序的 zheye 文件夹放到工程目录里

第三步,爬虫实现

start_requests() 方法,起始 url 函数,会替换 start_urls

Request() 方法,get 方式请求网页
url= 字符串类型 url
headers= 字典类型浏览器代理
meta= 字典类型的数据,会传递给回调函数
callback= 回调函数名称

scrapy.FormRequest()post 方式提交数据
url= 字符串类型 url
headers= 字典类型浏览器代理
meta= 字典类型的数据,会传递给回调函数
callback= 回调函数名称
formdata= 字典类型,要提交的数据字段

response.headers.getlist(‘Set-Cookie’) 获取响应 Cookies
response.request.headers.getlist(‘Cookie’) 获取请求 Cookies

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request,FormRequest
import re

class PachSpider(scrapy.Spider):                            #定义爬虫类,必须继承 scrapy.Spider
    name = 'pach'                                           #设置爬虫名称
    allowed_domains = ['zhihu.com']                    #爬取域名
    # start_urls = ['']                                     #爬取网址, 只适于不需要登录的请求,因为没法设置 cookie 等信息

    header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'}  #设置浏览器用户代理

    def start_requests(self):    #起始 url 函数,会替换 start_urls
        """第一次请求一下登录页面,设置开启 cookie 使其得到 cookie,设置回调函数"""
        return [Request(
            url='https://www.zhihu.com/#signin',
            headers=self.header,
            meta={'cookiejar':1},       #开启 Cookies 记录,将 Cookies 传给回调函数
            callback=self.parse
        )]

    def parse(self, response):
        # 响应 Cookies
        Cookie1 = response.headers.getlist('Set-Cookie')                            #查看一下响应 Cookie,也就是第一次访问注册页面时后台写入浏览器的 Cookie
        print('后台首次写入的响应 Cookies:',Cookie1)

        #获取 xsrf 密串
        xsrf = response.xpath('//input[@name="_xsrf"]/@value').extract()[0]
        print('获取 xsrf 密串:' + xsrf)

        #获取验证码         
        import time         
        t = str(int(time.time()*1000))         
        captcha_url = 'https://www.zhihu.com/captcha.gif?r={0}&type=login&lang=cn'.format(t)   #构造验证码请求地址
        yield Request(url=captcha_url,                                                         #请求验证码图片
                      headers=self.header,
                      meta={'cookiejar':response.meta['cookiejar'],'xsrf':xsrf},               #将 Cookies 和 xsrf 密串传给回调函数
                      callback=self.post_tj
                      )

    def post_tj(self, response):
        with open('yzhm.jpg','wb') as f:        #打开图片句柄
            f.write(response.body)              #将验证码图片写入本地
            f.close()                           #关闭句柄

#--------------------------- 者也验证码识别 -----------------------

        from zheye import zheye                 #导入者也倒立文字验证码识别模块对象
        z = zheye()                             #实例化对象
        positions = z.Recognize('yzhm.jpg')     #将验证码本地路径传入 Recognize 方法识别,返回倒立图片的坐标
        # print(positions)                      #默认倒立文字的 y 坐标在前,x 坐标在后

        #知乎网要求的倒立文字坐标是 x 轴在前,y 轴在后,所以我们需要定义一个列表来改变默认的,倒立文字坐标位置
        pos_arr = []
        if len(positions) == 2:
            if positions[0][1] > positions[1][1]:                      #判断列表里第一个元祖里的第二个元素如果大于, 第二个元祖里的第二个元素
                pos_arr.append([positions[1][1],positions[1][0]])
                pos_arr.append([positions[0][1], positions[0][0]])
            else:
                pos_arr.append([positions[0][1], positions[0][0]])
                pos_arr.append([positions[1][1], positions[1][0]])
        else:
            pos_arr.append([positions[0][1], positions[0][0]])

        print('处理后的验证码坐标',pos_arr)

# ------------- 者也验证码识别结束 --------

        if len(pos_arr) == 2:
            data = {                                                                    # 设置用户登录信息,对应抓包得到字段
                '_xsrf': response.meta['xsrf'],
                'password': '279819',
                'captcha': '{"img_size":[200,44],"input_points":[[%.2f,%f],[%.2f,%f]]}' %(pos_arr[0][0] / 2, pos_arr[0][1] / 2, pos_arr[1][0] / 2, pos_arr[1][1] / 2),  #因为验证码识别默认是 400X88 的尺寸所以要除以 2
                'captcha_type': 'cn',
                'phone_num': '15284816568'
            }
        else:
            data = {                                                                    # 设置用户登录信息,对应抓包得到字段
                '_xsrf': response.meta['xsrf'],
                'password': '279819',
                'captcha': '{"img_size":[200,44],"input_points":[[%.2f,%f]]}' %(pos_arr[0][0] / 2, pos_arr[0][1] / 2),
                'captcha_type': 'cn',
                'phone_num': '15284816568'
            }

        print('登录提交数据',data)

        print('登录中....!')
        """第二次用表单 post 请求,携带 Cookie、浏览器代理、用户登录信息,进行登录给 Cookie 授权"""
        return [scrapy.FormRequest(
            url='https://www.zhihu.com/login/phone_num',                        #真实 post 地址
            meta={'cookiejar':response.meta['cookiejar']},                      #接收第传过来的 Cookies
            headers=self.header,
            formdata=data,
            callback=self.next
        )]

    def next(self,response):
        # 请求 Cookie
        Cookie2 = response.request.headers.getlist('Cookie')
        print('登录时携带请求的 Cookies:',Cookie2)

        jieg = response.body.decode("utf-8")   #登录后可以查看一下登录响应信息
        print('登录响应结果:',jieg)

        print('正在请需要登录才可以访问的页面....!')

        """登录后请求需要登录才能查看的页面,如个人中心,携带授权后的 Cookie 请求"""
        yield Request(
            url='https://www.zhihu.com/people/lin-gui-xiu-41/activities',
            headers=self.header,
            meta={'cookiejar':True},
            callback=self.next2
        )

    def next2(self,response):
        # 请求 Cookie
        Cookie3 = response.request.headers.getlist('Cookie')
        print('查看需要登录才可以访问的页面携带 Cookies:',Cookie3)

        leir = response.xpath('/html/head/title/text()').extract()  #得到个人中心页面
        print('最终内容',leir)
        # print(response.body.decode("utf-8"))


【转载自:http://www.lqkweb.com】

正文完
 0