关于爬虫:彻底了解Python爬虫是什么

9次阅读

共计 3752 个字符,预计需要花费 10 分钟才能阅读完成。

前段时间我妈忽然问我:儿子,爬虫是什么?我过后既诧异又难堪,诧异的是为什么我妈会对爬虫好奇?难堪的是我该怎么给她解释呢?

一、爬虫介绍

1. 爬虫是什么

网络爬虫 (web crawler 简称爬虫) 就是 依照肯定规定从互联网上抓取信息的程序 ,既然是程序那和失常用户拜访页面有何区别?爬虫与用户失常访问信息的区别就在于:用户是迟缓、大量的获取信息,而爬虫是 大量 的获取信息。\

这里还须要留神的是:爬虫并不是 Python 语言的专利,Java、Js、C、PHP、Shell、Ruby 等等语言都能够实现,那为什么 Python 爬虫会这么火?我感觉相比其余语言做爬虫 Python 可能就是各种库欠缺点、上手简略大家都在用,社区天然沉闷,而社区沉闷促成 Python 爬虫缓缓变成熟,成熟又促使更多用户来应用,如此良性循环,所以 Python 爬虫相比其余语言的爬虫才更火。

上面就是一段 hello world 级别的 Python 爬虫,它等效于你在百度搜寻关键字: python

2. 爬虫案例

既然爬虫是大量抓取网页,那是不是爬虫都是不好的呢?答案当然不是,能够说咱们的日常上网曾经离不开爬虫了,为什么这么说?上面我就为大家盘点几个爬虫日常利用:

  1. 搜索引擎:如 Google、百度、雅虎、搜狗、必应等等很多搜索引擎其本质就是一个(可能多个)微小爬虫,这些搜索引擎工作原理是:页面收录 -> 页面剖析 -> 页面排序 -> 响应关键字查问 ,也就是说它会先把互联网上很多页面保留到服务器,而后剖析网页内容建设关键字索引,最初用户输出关键字的时候去查问内容,而后依据相关性排序(百度害人的竞价排名毫无相关性可言),第一步的 页面收录 就是爬虫,百度查看一个网站有多少网页被收录办法,百度输出:site: 你想查问的网站,如:site:blog.csdn.net。

  2. 抢票软件:很多人在吐槽 12306 卡,可你不晓得 12306 简直每天都相当于淘宝双 11 的流量,这谁受得了。为什么每天都是如此高的流量?答案天然是爬虫了,为什么抢票软件能够抢票?因为它在一直的刷新和监控是否无余票,大大小小这么多抢票 app,访问量之高可想而知。之前很多公司都出过抢票插件,如:百度、360、金山、搜狗等等,起初都被铁道部约谈下线了,而当初又风行抢票 app,为什么抢票 app 能够,插件就不能够?可能是因为治理和可控性的起因。
  3. 惠惠购物助手:这是一款能进行多个网站比价并能晓得最低价的一个网站,其工作原理也是通过大量爬虫爬取商品价格而后存储,这样就能够制作一个价格走势图,帮忙你理解商品最低价。

二、爬虫的价值

从下面举的几个例子来看,爬虫对整个互联网的价值真的无法估量,那对于小我而言,爬虫能给咱们带来哪些价值?

1. 隐形的翅膀

如果你问我学完 Python 根底之后该学习什么技能?我会毫不犹豫的说爬虫,为什么是爬虫?

  1. 爬虫绝对其余技能简略易学,且成果立刻可见,会有肯定的成就感
  2. 爬虫能够说是其余技能的基石,因为他是数据的起源,当初这个时代谁有数据谁能力称王,所以会爬虫相对会让你锦上添花
  3. 在国内,很多企业巴不得你啥都会,所以在应聘时,爬虫会是一个不错的加分项

2. 看不见的商战

职场对话:

老板:小明给你个重要工作。\
小明:就算 996 我也万死不辞(第一次接到老板的间接需要)!\
老板:你能不能搞到竞争对手的商品价格?\
小明:没问题(牛逼先吹出去),小事!\
老板:这可不是小事,只有你能继续获取竞品价格,咱们就能够标价低于他们一点点,继续如此大家就晓得咱们的价格必定是比他们低,这样大家就间接来咱们这里购买商品了,到时候庆功宴上你就是最大功臣(先画个饼)。\
小明:老板牛逼,老板英明!

3. 会爬虫就能够守业

工作之后很多同学会利用下班空余工夫,来做本人的货色或者我的项目,别看开始是一个小打小闹的货色,缓缓丰盛未来兴许会成为一款成熟的产品。

而爬虫能够让你很轻松的实现本人的产品,做的好的话就能够守业。这里查理给大家列几个简略的创业项目,当然作为一个思维疏导。
\
如果你想做一款好的产品,你须要从用户需要登程去思考,做解决目前存在的问题的产品或者目前还没有的服务,兴许你的产品就是下一个头条。

三、盗亦有道

爬虫既然如此弱小而优良,那是不是会了爬虫就能够随心所欲?

延长话题:其实我心田始终有一个疑难:为什么互联网公司都偏爱用动植物来命名或作为 logo?如:蚂蚁金服、天猫、菜鸟、金东狗、腾讯企鹅,百度的熊掌、搜狗、途牛、美团的袋鼠。。。真的是太多了,难道仅仅是因为好记?我认为好记是一个起因,其根本原因是受到编程行业的影响,你想想编程行业有多少动植物:Java(咖啡)、Python(蟒蛇)、Go(囊地鼠)、PHP(大象)、Linux(企鹅)、Perl(骆驼)、Mysql(海豚)等等,具体为什么编程行业喜爱用动植物这查理就不分明,还请明确的同学留言告知大家!

讲下面的延长话题想表白的是,大自然世间万物,相生相克,衡而不祸!而爬虫也是如此,上面就为大家介绍一下束缚爬虫的几个点。

1.robots 协定

做过网站的同学兴许晓得,咱们在建站的时候须要在网站根目录下放一个文件:robots.txt,这个文件是干什么用的呢?

Robots 协定,也称为爬虫协定、机器人协定等,其全称为“网络爬虫排除规范(Robots Exclusion Protocol)”。网站通过 Robots 协定通知搜索引擎哪些页面能够抓取,哪些页面不能抓取。

每个网站的根目录下都必须搁置 robots.txt 文件,否则搜索引擎将不收录网站任何网页。

上面咱们以百度为例子,来看看百度的 robots.txt 文件:\
\
咱们在百度 robots 协定的最上面,有这样一条:

User-agent: *
Disallow: /

这示意除下面那些定义过的爬虫以外其余爬虫都不容许爬取百度任何货色!

2. 法律

咱们都晓得在发动申请时 User-agent 是能够自定义的,也就是说咱们能够绕过 robots 协定 和以 User-agent 来定义的反爬虫技术,所以 robots 协定 可能更像一个小人协定,那咱们国家有没有法律明文规定呢?咱们来理解一下 非法侵入计算机信息零碎罪

第二百八十五条 非法侵入计算机信息零碎罪:违反国家规定,侵入 前款规定以外的计算机信息零碎或者采纳其余技术手段,获取该计算机信息零碎中存储、解决或者传输的数据,或者对该计算机信息系统实施非法管制,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特地重大的,处三年以上七年以下有期徒刑,并处罚金。

咱们能够看到重点信息:入侵计算机获取数据是守法的,也就是说爬虫技术自身是无罪的,因为它是获取的公开信息,并未非法入侵计算机。然而如果你用爬取到的数据去从事商业化操作,那兴许就形成了违法犯罪行为!

给大家介绍下因爬虫而被判刑的案件:

  1. 头条爬虫官司:https://dwz.cn/qBBHc2fq
  2. 酷米客公司官司:https://dwz.cn/9IpAOHGB
  3. 360 和百度爬虫官司:https://dwz.cn/RGRa3HJc

我发现这几起案件的通性有两点:1、公司性质。2、竞争对手。3、被人家找到线索。

最初揭示大家:技术人,要守住本人的底线,违反国家法律法规的事件咱们坚定不能做!

3. 反爬虫工程师

原本想采访一位携程反爬虫工程师,然而他说因为工作窃密起因不便承受采访,所以只好尊重他的决定,在这里也给大家说声道歉!

四、爬虫现状

之前查理说过互联网中有超过 50% 的流量来自爬虫,那咱们就来简略聊聊目前爬虫的现状吧!

1. 技术

反爬虫简直和爬虫同时诞生,它们是相爱相杀的连个技术,如果没有爬虫就没有反扒,而反扒技术又反过来又能够促成爬虫技术的倒退。

  1. 交互问题:各种变态的验证码充斥,尤其是 12306,分分钟都想爆粗口,当前会越来越变态。。。
  2. js 加密:最近很风行的一种反扒技术,会爬虫还得先学 js,而后反爬虫工程师在 js 外面各种投毒,杀人诛心。。。
  3. IP 限度:限度单个 ip 某段时间内拜访次数

查理只介绍了一些反扒技术,当然都有现成的技术解决,然而作为爬虫员最重的并不是会应用工具或框架去应答反扒,而是能通过本人的思考和摸索破解反扒,因为反扒技术更新快且多样化。\

2. 待业

待业的话次要从招聘、薪资、待业局势三个方面剖析,我从网上查阅了一些材料,而后整顿以图片模式提供给大家参考。\
\
\
\
数据起源:职友集:https://dwz.cn/6PeU46QY

3. 前景

当初很多人并不看好爬虫的前景,只搞爬虫的话技术只停留在以后程度,不再学习新常识,不再提高的话,那么是没有前途的,总有一天会被时代淘汰,其实其余职位也只如此。

\

每个职业都是有一个横向和纵向的倒退,也就是所谓的广度和深度的意思。第一、如果专研得够深,你的爬虫性能很弱小,性能很高,扩展性很好等等,那么还是很有前途的。第二、爬虫作为数据的起源,前面还有很多方向能够倒退,比方能够往大数据分析、数据展现、机器学习等方面倒退,前途不可限量,当初作为大数据时代,你占据在数据的的入口,还怕找不到倒退方向?所以爬虫兴许只是一个终点一个跳板,是你走向人生巅峰的一个基石,总有一天你会迎娶白富美!

\

五、总结

本期为大家解说什么是爬虫、爬虫的价值、爬虫的合法性以及爬虫的现状。最初,无论如何,十分感谢您浏览我的文章!有任何问题能够后盾私信我,有问必答!

正文完
 0