RPA机器人和爬虫的区别他们的边界在哪里

48次阅读

共计 1587 个字符,预计需要花费 4 分钟才能阅读完成。

2019 年越来越的企业关注到 RPA,也有很多企业开始投入到 RPA 实施服务商的行业里面。RPA 的热度之高,说是空前绝后可能有点夸张,但是说火到极致一点都没有错,RPA 机器人最重要的一个功能就是从一些页面上把数据爬下来,所有很多人就想知道 RPA 机器人和传统意义上的爬冲区别点在哪里?今天,51RPA 小编和大家谈谈爬虫、Python、以及和 RPA 的关系。

RPA、爬虫和 Python 定义

什么是 RPA,这个问题应该不用多解释。(RPA 机器人是什么?到底什么是 RPA 流程自动化机器人?)

什么是爬虫?(是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。来自百度百科。)

什么是 Python?(是一种面向对象的动态类型语言,最初被设计用于编写自动化脚本 (shell),随着版本的不断更新和语言新功能的添加,越来越多被用于独立的、大型项目的开发。简单,易于上手,未来人工制首选语言。来自百度百科。)

关于爬虫的观点:

1、爬虫技术使用最多的公司:Google、百度、360 搜索。还有我们非常熟悉的:去哪儿。

2、爬虫经常会被要求短时间内抓取大量数据,可能会对目标网站造成一定的流量压力。频繁和大量被竞争对手获取网站数据,可能导致竞争优势的稀释。

3、爬虫会被区分为“好”爬虫和“坏”爬虫。(网站所有者来决定孰好孰坏,通常搜索引擎是“好”爬虫,竞争对手的爬虫都是“坏”爬虫)。

4、每个网站可以按照规范(robot.txt 文件)定义允许爬虫爬取的内容,但从来都是“防君子不防小人”。如果坏的爬虫要访问,这个 robot.txt 文件 形同虚设。

5、网站和爬虫之间互有攻防,就出现了这样的概念:爬虫、反爬虫、反反爬虫。这个对抗可以一直循环下去,图形越来越大,而图形越大代表着双方付出的代价越高(涉及的内容有:间隔时间、Cookies、user-agent、IP、文字图片化、假链接、假数据、误伤率等)。

6、边际贡献这个事儿,适用于所有的 IT 项目,包括 RPA 项目。

说简单点儿就是:追求完美的成果,代价一定是对应“完美”的价格。适可而止是一门艺术。

关于 Python 的观点:

1、“存在即合理”。这么火一定是有道理的。
2、回归本质,Phthon 也是一门编程语言。对编程人员越友好,对效率就越不友好。
3、编程语言、数据结构、算法永远是不同的概念,也永远是相辅相成的。
4、当初做 C 语言程序员,觉得 Java 不操作指针,不释放内存,怎么能长久?现在来看,C 和 Java 各自安好。
现在 Python(还有 R 语言)的语句更加简洁,不断降低编程的入门门槛确实是件好事儿。
5、用 Python 写爬虫,资源很多,上手很快;同时,程序员也很贵。
RPA 和爬虫

1、针对于从网页获取招标信息来讲,爬虫可以实现,RPA 也可以实现。均不存在技术难度的问题。

2、针对这个需求,RPA 实现更加容易,周期更短,速度更快。

3、爬虫在处理网页内容时,直接操作 HTML,可以非常灵活和精细(借助正则表达式几乎无所不能);RPA 操作的是可见的网页元素,模拟人的操作可以,替代爬虫的功能是比较困难的。

4、利用 RPA 爬取网站信息的场景,多数不算是“坏”爬虫。因为前提是模拟人的操作,提升工作效率。

5、从必要性角度来讲,如果 RPA 获取网页数据的数据量相对不多、而且频率相对较低的话,反爬虫大概率不会进行封锁(误伤率是反爬虫非常在意的指标)。

6、从复杂性角度来讲,如果 RPA 仅仅是模拟人的操作,执行特定操作的话,反爬虫是很难通过模式识别的手段,精准区分人的操作和 RPA 的操作的(幽默的是:最难抓的爬虫之一是人肉爬虫,但人肉爬虫还是算爬虫吗?)。

7、验证码是反爬虫(包括防止 RPA)很有效的办法。验证码和 OCR 的事儿,实际上大部分验证码市场有很多技术可以识别,目前只有京东上的滑块验证码,在反爬虫方面还是很厉害的。

正文完
 0