很多网站服务器往往通过判断客户端申请头中的 User-Agent 蕴含的操作系统信息、浏览器信息等来给不同的客户端浏览器发送不同的页面显示更好的成果。因而,在爬虫过程中就须要将咱们本人的申请身份伪装成某种浏览器,而这个假装信息就蕴含在 User-Agent 字段的赋值中,所以才要钻研如何随机的生成各种不同的 User-Agent 的值来假装咱们的爬虫身份。
1、浏览器的 UA 字符串
服务器对客户端申请头的 UserAgent 检测又称为 UA 检测,UA 值的字符串规范格局个别为:浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息。依据操作系统、浏览器信息等的不同能够随机组合出不同的 User-Agent 的值。
2、导入 fake_useragent、并创建对象
1# -*- coding: UTF-8 -*-
2
3# 从 fake_useragent 模块导入 UserAgent
4from fake_useragent import UserAgent
5
6# 创立 UserAgent 对象
7user_agent = UserAgent()
3、不同浏览器如何随机生成 User-Agent
1# 随机统计生成 User-Agent
2print user_agent.random
3# 随机生成 ie 的 User-Agent
4print user_agent.ie
5# 随机生成 opera 的 User-Agent
6print user_agent.opera
7# 随机生成 chrome 的 User-Agent
8print user_agent.chrome
9# 随机生成 google 的 User-Agent
10print user_agent.google
11# 随机生成 firefox 的 User-Agent
12print user_agent.firefox
13# 随机生成 safari 的 User-Agent
14print user_agent.safari
更多精彩返回微信公众号【Python 集中营】,专一于 python 技术栈,材料获取、交换社区、干货分享,期待你的退出~