共计 1499 个字符,预计需要花费 4 分钟才能阅读完成。
为什么要应用 cookie 信息来进行爬虫呢?做后端的敌人们都晓得,个别状况下,在服务器上公布接口都是要设置身份信息验证,验证的形式就是通过 cookie 信息中蕴含的身份认证来进行验证。在身份验证通过之后,能力获取到响应接口的信息,所以,把握这一点在爬虫过程中也是极为必要,不然只能爬取一些不须要验证的公开信息,话不多说,咱们进入实战环节。
1、导入依赖的第三方扩大库
1# -*- coding: UTF-8 -*-
2
3# 导入 urllib 库,对申请参数进行编码
4import urllib
5
6# 导入 urllib2 库,实现网络申请
7import urllib2
8
9# 导入 cookielib 库,用于操作 cookie 信息
10import cookielib
2、登录网站并提取 cookie 信息进行保留
1# 设置文件门路
2filename = u'usr/load/cookie.txt'
3
4# 创立 MozillaCookieJar 对象用于操作 cookie 信息
5cookie_obj = cookielib.MozillaCookieJar(filename)
6# 构建 opener 对象
7opener_obj = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie_obj))
8
9# 构建用户名、明码,并进行 encode 编码
10params = urllib.urlencode({
11 'account': '000000',
12 'passwd': '000000'
13})
14
15# 定义网站登录地址
16login_url = 'http://wefd.com/login'
17
18# 向服务器发送申请、实现用户名 / 明码登录
19result = opener_obj.open(url=login_url, data=params)
20
21# 保留 cookie 信息
22cookie_obj.save(ignore_discard=True, ignore_expires=True)
3、提取保留的 cookie 信息并应用 cookie 信息实现登录
1# 创立 MozillaCookieJar 实例对象用于操作 cookie 信息
2cookie_obj = cookielib.MozillaCookieJar()
3
4# 设置文件门路
5filename = u'usr/load/cookie.txt'
6
7# 加载 cookie 信息到 MozillaCookieJar 对象
8cookie_obj.load(filename, ignore_discard=True, ignore_expires=True)
9
10# 定义网站登录地址
11login_url = 'http://wefd.com/login'
12
13# 创立 Request 申请
14request = urllib2.Request(login_url)
15
16# 构建 opener 对象,并退出 cookie 信息
17opener_obj = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie_obj))
18
19# 执行登录申请
20response = opener_obj.open(request)
21print response.read()
更多精彩返回微信公众号【Python 集中营】,专一于 python 技术栈,材料获取、交换社区、干货分享,期待你的退出~
正文完