关于captcha:验证码与人工智能的激荡二十年平行世界

该篇为「验证码与人工智能二十年」系列的第二篇，次要讲述验证码与人工智能在平行世界里的诞生，重点聚焦于验证码诞生之初时两者的成熟度与力量对比，并提出在人工智能背后设计验证码的要害实践，埋下两者将来碰撞的伏笔。

1995 年，互联网开启正式的商业化浪潮，大大小小的 web 站点和服务开始如雨后春笋般的呈现，其中最受欢迎的当属网络邮箱服务。2000 年后 Yahoo 邮箱迎来了用户使用量的暴增，用户量的蓬勃增长，也让许多人看到了新的商机，一种新的营销形式也迅速的蔓延开来。大量的营销广告邮件充斥在人们的邮箱当中，不仅仅是占用了无限的资源还让用户非常的恶感。当你的邮件被吞没在大量垃圾邮件中时，邮箱还会被应用的几率会是多少呢？因而 Yahoo 迫切的想要解决这个问题，如果可能辨别出注册邮箱账号的是实在用户还是注册机等软件程序，那么这个问题就可能失去根本性的缓解。

针对这个问题，2002 年卡内基梅隆大学的计算机学生—路易斯·冯·安 (Luis von Ahn) 和他的小伙伴构想一种让人和机器都加入的测试，这个测试是人容易实现而计算机却不容易实现的，这样就能辨别人和机器，这个概念前面被正式称为全自动辨别计算机和人类的图灵测试（Completely Automated Public Turing test to tell Computers and Humans Apart），简称 CAPTCHA，中文译为验证码。具体而言，他们想出设计一种能显示一组通过扭曲字母的图片程序，而后要求用户将正确的字母输出到答复框中，而过后的计算机程序却很难辨认，从而阻止机器程序的拜访。

这就是验证码诞生的过程，而且在尔后长达十多年的工夫内，这样一种字符验证码的形式始终连续。它们在解决像垃圾注册、撞库登录、歹意爬虫、歹意留言发帖等诸多场景中，可能帮忙网站很好的阻挡机器程序，施展了重要的作用。

–

古代意义上的人工智能的概念，诞生于 1956 年的达特茅斯会议。而此前的数年，人工智能的种子就曾经开始萌芽。

1950 年，阿兰·图灵发明了图灵测试来断定计算机是否智能，即如果一台机器可能与人类进行的对话（通过电传设施）而不能被分别出其机器身份，那么称这台机器具备智能；
1952，IBM 科学家亚瑟·塞缪尔开发了一个跳棋程序。该程序可能通过观察以后地位，并学习一个隐含的模型，从而为后续动作提供更好的领导。他发明了「机器学习」这一术语，并将它定义为：能够提供计算机能力而无需显式编程的钻研畛域。

当正式提出人工智能概念后，1957 年，罗森·布拉特基于神经感知迷信背景设计出了第一个计算机神经网络——感知机（the perceptron），它模仿了人脑的运作形式。3 年后，维德罗首次应用 Delta 学习规定（即最小二乘法）用于感知器的训练步骤，发明了一个良好的线性分类器。而后，多年后的 1969 年，马文·明斯基提出了驰名的 XOR 问题，指出感知机在线性不可分的数据分布上是生效的，尔后神经网络的研究者进入了寒冬，整个人工智能畛域也陷入了高潮，直到 80 年代才再一次复苏。

复苏

当工夫来到 80 年代，得益于专家系统的风行，人工智能开始昌盛，同时机器学习的办法与实践也获得了不错的倒退。

先看神经网络技术，几个标志性的冲破为明天的深度学习奠定了根底：

1982 年 John Hopfield 提出了 Hopfield 网络，通过援用物理力学的分析方法，把网络作为一种动静零碎并钻研这种网络动静零碎的稳定性；
1985 年，Hinton 和 Sejnowski 借助统计物理学的概念和办法提出了一种随机神经网络模型——玻尔兹曼机。一年后他们又改良了模型，提出了受限玻尔兹曼机；
1986 年，Rumelhart，Hinton，Williams 倒退了 BP 算法，即多层感知器的误差反向流传算法。

与神经网络不同的另一个谱系中，Quinlan 于 1986 年提出了一种十分闻名的被称为「决策树」的机器学习算法，更具体的说是 ID3 算法。顾名思义，决策树是基于树结构来进行决策的，这恰是人类在面临决策问题时一种很天然的解决机制。它能以简略的布局和明确的推论找到更多的事实案例，而这一点正好和神经网络黑箱模型相同。在 ID3 算法提出来当前，钻研社区曾经摸索了许多不同的抉择或改良（如 ID4、回归树、CART 算法等），这些算法依然沉闷在机器学习畛域中。

当进入到 90 年代后，之前看起来比拟胜利的专家系统因为老本太高以及其它的起因，商业上很难获得成功，人工智能再次进入短暂的高潮。然而即使是这样，经典机器学习的算法和实践依然获得了很多要害冲破，驱动人工智能在短暂的高潮之后行将迎来新的低潮。

1995 年，Vapnik 和 Cortes 提出了反对向量机（Support Vector Machine）的机器学习算法，成为该畛域的一个重大突破，因为它不仅试验成果十分亮眼，而且具备松软的实践根底。特地是在 2000 年左右，又提出了带核函数的反对向量机，更是在泛滥机器学习工作中获得十分好的成果。相比神经网络模型的黑盒模型，它在实践方面从不同学科吸取营养，充分利用了凸优化、综合边际实践和核函数等丰盛研究成果，因此成为机器学习中更受欢迎的流派。

除了 SVM 这种在算法实践层面的微小冲破之外，经典的决策树等算法模型在集成学习（Ensemble Learning）思维的加持下获得了微小的晋升。集成学习是通过训练若干个弱分类器，并通过肯定的联合策略造成一个强分类器。该种办法大抵能够分为两大类：Bagging 和 Boosting。

Bagging 类型的算法，个别应用强学习器，其个体学习器之间不存在强依赖关系，因此一系列学习器能够并行生成，其代表算法就是 2001 由 Leo Breiman 提出的 Random Forest 随机森林，其个体学习器就是后面提到的经典决策树模型。

Boosting 类型的算法，其次要指标为将弱学习器「晋升」为强学习器，大部分 Boosting 算法都是依据前一个学习器的训练成果对样本分布进行调整，再依据新的样本分布训练下一个学习器，最初将一系列弱学习器组合成一个强学习器。这其中具备里程碑意义的当属 AdaBoost 算法，它是在 1997 年由 Freund 和 Schapire 提出，尔后则还有 GradientBoost 等算法被相继提出。

在 SVM 以及经典计算主义等机器学习算法冲破的同时，神经网络却蒙受到又一个质疑：通过 Hochreiter 等人 1991 年和 Hochreiter 等人在 2001 年的钻研表明在利用 BP 算法学习时，神经网络模型算法中神经元饱和后会呈现梯度损失（gradient loss）的状况。简略地说，在肯定数量的 epochs 训练后，神经网络会产生过拟合景象，因而这一时期神经网络与 SVM 相比处于劣势，直到 2006 年由 Hinton 领衔的深度学习热潮衰亡。

人工智能刚刚诞生的 60 年代，因为技术还未成熟，没能开始商业化。进入 70 年代后，专家系统模仿人类专家的常识和教训解决特定畛域的问题，次要在医疗、化学、地质等畛域取得成功，推动人工智能走入利用倒退的新高潮。进入 80、90 年代后，过后以传统机器学习为主的 AI 技术，曾经开始次要利用在图像处理、模式检测、危险辨认等场景。

到验证码诞生的 2002 年，人工智能的倒退曾经走过了波折但成绩丰富的近 50 年，在经典机器学习算法上获得了很多冲破，然而在日后以深度学习著称的神经网络技术却始终未能展现出本人的弱小劣势。此时，对于验证码这个全新的场景，应用经典机器学习进行破解的老本太高，机会还未成熟。因而，能够说站在 2000 年刚开始的工夫关口，验证码与人工智能简直处于「平行世界」的关系。

尽管如此，两者却因为各自概念定义里最外围的图灵测试而注定将成为对手，产生强烈的交锋与交融。而对于验证码的设计而言，咱们将会认知到一个最实质的底层逻辑，即人类与 AI 的能力差距是咱们设计一款通用好用的验证码的空间，空间越窄就越艰难。这也可能解释 2000 年之后随着人工智能技术进入新的倒退低潮，尔后十多年内验证码从未呈现超过传统字符的模式，即便它曾经重大不能满足最后的构想和指标。

敬请期待下篇：「验证码与人工智能的激荡二十年：成为对手」

关于captcha:验证码与人工智能的激荡二十年平行世界

验证码的诞生

平行世界里的 AI

诞生与窘境

走向成熟

反对向量机的提出

集成学习的晋升

神经网络的低谷

两者的关系