关于人工智能:计算机视觉的技术与应用

本文介绍了计算机视觉的技术和利用，全文约 3500 字，浏览工夫 10 分钟。

什么是计算机视觉
计算机视觉的次要技术
计算机视觉技术的利用

人们可能没有意识到他们的视觉零碎是如此弱小。婴儿出世后几个小时就能认出母亲的样子；乒乓球运动员依据对手的轻微动作判断发球方向。人承受信息中 70%-80% 来自视觉信息，如果机器像人一样有视觉零碎，机器须要“看懂”图像。

钻研人员心愿机器看起来像人类“看懂”图像，进而钻研人类视觉零碎，该零碎包含眼球（接管光信号）、视网膜（光信号转换为电信号传输到大脑）、大脑皮层（提取电信号的无效特色并疏导人们做出反馈）。

为了使机器模仿人类视觉零碎，钻研人员应用相机模仿“眼球”获取图像信息；用数字图像处理模仿“视网膜”将模仿图像转换为数字图像，使计算机可能辨认；应用计算机视觉模仿“大脑皮层”设计算法提取图像特色，进行辨认和检测。机器模仿人类视觉零碎是机器视觉，也称为计算机视觉（ComputerVision, CV），解决机器如何‘看懂’的图像。

计算机视觉技术包含以下从简略到简单的性能：

图像采集和解决——应用摄像头及其他类型的传感器采集真实世界中的三维场景，将其转化为视频。每段视频就是一系列的图像，而每个图像都是一个二维矩阵，矩阵里的每个点都代表人所能看到的色彩（这个点也就是所谓的“像素”）。
指标辨认——对物体进行辨认（例如辨认出一只狗），并在此基础上把握更多的细节特色（例如确认该狗为牧羊犬、毛色红色等）。
指标检测和图像宰割——把图像划分为若干个不同区域和物体。
指标追踪——在视频中定位和跟踪物体。
动作辨认——对动作和手势进行辨认，如 Xbox 体感游戏中的舞蹈动作。
场景了解——对一个残缺的场景（例如一只饥饿的狗正在盯着一根骨头）进行剖析并了解，把握其中简单而奥妙的关系。
生成式反抗网络（GAN）——其中的一个网络名为生成式网络，负责尝试生成一些看起来很实在的货色，另一个网络名为判别式网络，它会把生成式网络所合成的货色与实在的货色进行比拟，确定生成式网络的输入是真是假，例如 Deepfake 换脸。

指标辨认用于解决“是什么”的问题。指标辨认的典型利用是车牌号码辨认、交通灯辨认、图像识别等。

对咱们人类来说，咱们能够毫不费力地区分猫和狗，因为当咱们看到这些物体时，咱们的大脑会从它们的基本特征中分离出来（圆头、尖耳朵等）。基本特征与物体的名称（标签）绝对应，而后咱们能够看到相似的物体来辨认它们。

计算机也是如此。应用计算机实现图像分类时，大抵可分为数据集采集、图像预处理、特征提取、分类器训练和模型评估。

图像预处理的目标是打消图像中无用的信息，复原有用的信息，更有利于后续的特征提取。简略的图像特征提取是提取物体的色彩、轮廓等。分类器训练是匹配图像的特色和标签。当分类器训练实现之后，新图像输出到分类器中，查看分类成果，即模型评估。

指标检测用来解决“在哪里”的问题，如输出一张图片，输入待检测指标的类别和所在位置的坐标（矩形框的坐标值示意）。

指标检测的典型利用在安防监控，有手机领取中的人脸检测；在智慧交通，有主动驾驶中的车辆检测；在智慧商超，有无人结账中的商品检测；在工业畛域中，有钢材、轨道外表缺点检测。

人类在看货色的时候，能够晓得物体是什么和物体的地位。计算机视觉的初衷是让机器像人一样能够“看到”世界，机器是没有地位的感觉，而是通过矩形窗口在图片上滑动，取得物体的初始地位，再剖析该窗口内的特色，是不是此物体。

晚期，指标检测算法还没有应用深度学习，个别分为三个阶段：区域选取、特征提取、特色分类。

区域选取这一步是为了对物体进行定位，采纳了滑动窗口的策略，物体在图像中的地位和大小是变动的，因此须要不同的矩形窗口的比例，再通过矩形窗口在图像中从左到右、从上到下的滑动，能够取得图像上任意地位不同大小的物体。特征提取和特色分类的阶段是找到物体的类别，跟图像分类统一。

基于深度学习的指标检测大抵能够分为一阶段 (One Stage) 模型和二阶段 (Two Stage) 模型。

指标检测的一阶段模型是指没有独立地提取候选区域(Region Proposal)，间接输出图像失去图中存在的物体类别和相应的地位信息。二阶段模型是有独立地候选区域选取，要先对输出图像筛选出可能存在物体的候选区域，而后判断候选区域中是否存在指标，如果存在输入指标类别和地位信息。

图像宰割依据图像的灰度、色彩、构造和纹理特色将图像分为几个具备类似性质的区域。与指标检测相比，图像宰割更适宜精密的图像识别工作、更精确的指标定位和图像的语义了解工作。

图像宰割的典型利用在人像宰割、卫星图像剖析、主动驾驶中的车道线辨认，医学图像诊断中的肿瘤边界提取等。

当人类看图像时，他们往往更关注图像中感兴趣的区域。这个区域通常被称为前景。例如，人像宰割将图像中的人像与其背景离开。算法依据人像和背景的色彩和纹理来划分。

首先，通过剖析找到人像和背景的色彩阈值；其次，将图像中的每个像素值与阈值进行比拟，分为两类；最初，用阈值映射到原始图像取得人像。

在深度学习中，图像宰割是一种端到端的像素级分类工作，即对图像中的每个像素进行分类，与分类模型不同的是，宰割模型的输入是一个宰割图。

人脸识别是一种生物特色辨认技术，能够通过人脸图像所携带的生物特色信息来辨认个人身份。一般来说，人脸识别包含构建人脸识别零碎所应用的一系列相干技术，包含人脸图像采集、图像处理、人脸定位、身份确认、身份查问等。

人脸识别的工作过程可分为以下步骤：

第一步是人脸图像采集，人脸识别零碎将通过各种摄像头收集可见光图像、热成像图像、近红外图像等图像，也能够辨别动态、动静等不同状况。

第二步是人脸检测，这里能够应用各种人脸检测模型来检测画面中的人脸，生成相应的人脸框，而后排除人脸框外的图像，专一于人脸框内图像的摸索。

第三步是数据处理，相机拍摄的人脸可能有多个角度、表情、亮度等，须要通过光线弥补、灰度变动、直方图均衡化、归一化、几何校对、滤波以及锐化等形式解决人脸图像，便于人脸特征提取。

第四步是对人脸图片进行特征提取和分类，利用深度神经网络开掘图片的深度特色，在特定维度上对深度特色进行分类，从而判断这个人是谁。

指标跟踪是利用图像序列的上下文信息，对指标的外观和静止信息进行建模，从而对指标静止状态进行预测并标定指标地位。

指标跟踪典型利用在军事方面，有无人飞行器、准确制导、地面预警、战场监督等；在民用方面，包含移动机器人、智能视频监控、智能交通系统、人机交互、虚拟现实等。

指标跟踪的次要流程能够概括为：通过摄像头捕捉图像序列，而后输出计算机计算出指标的地位，再依据指标相干的特色，将每一帧中的同一个指标关联起来从而失去指标静止的残缺轨迹。

同一个指标关联起来的罕用办法是将指标跟踪问题看作一个二分类问题，把图像分为前景（正样本）和背景（负样本），利用图像特色和分类办法，将指标从背景区域中辨别进去，期间一直地在线更新分类器来预计指标的地位。

生成反抗网络（GAN）由两局部形成，一个是生成式网络 G（Generator），次要作用是生成假的样本，另一部分为判别式网络 D（Discriminator），次要作用是判断是否为可承受的生成数据。

GAN 技术典型利用在视频、演讲和许多其余模式的内容之中，如让照片中的人物变年老或者变老、为黑白电影及照片上色、让动态的画作（如《蒙娜丽莎》）动起来、进步分辨率、检测青光眼、预测气候变化带来的影响，甚至发现新药。

在训练过程中，生成模型 G 的指标是尽量生成靠近实在的样本去坑骗判断模型 D，而判断模型 D 的指标则是尽量把 G 的生成样本和实在样本辨别开来，这样 G 和 D 形成一个动静的“博弈”。

GAN 评估所生成样本的品质，最开始生成的样本非常容易分辨，起初生成器慢慢的可能生成更为真切的样本，则须要从新训练判断器，因而称为反抗。

最初博弈的后果是，G 生成的样本难以被 D 辨别进去是生成的还是实在的，此时失去的生成模型，能够用来生成样本数据。

计算机视觉赋予机器视觉一让它们通过机器学习和深度学习算法“看到”和摸索世界。这一弱小的技术已迅速在多个行业中失去利用，并成为技术倒退和数字化转型不可或缺的一部分。

在咱们的生存这些技术的身影如下：

化身汽车上的“助理驾驶员”，监测人类驾驶员是否疲劳驾驶；
进驻无人超市（如天猫无人超市），通过摄像头自动识别顾客把商品放进购物车的过程；
为机场提供平安保障，用于清点人数，辨认是否有恐怖分子出没；
姿势辨认，开发 Xbox 舞蹈游戏，为用户的动作打分；
人脸识别，让用户“刷脸”解锁手机；
智能相机，iPhone 的人像模式能够辨认并提取前景中的人物，奇妙地让背景虚化，成果堪比单反相机；
利用于军事畛域，将敌方士兵与平民辨别开，或打造无人机和主动驾驶汽车。
对照片和视频进行智能编辑，比方美图秀秀等软件工具，在计算机视觉技术的反对下，能够实现优化抠图、去红眼、丑化自拍等性能；
医学图像剖析，比方查看判断肺部 CT 中是否有恶性肿瘤；
内容过滤，监测社交媒体上是否呈现色情、暴力等内容；
依据一段视频内容搭配相干广告；
实现智能图像搜寻，依据关键字或图像线索查找指标图像；
实现换脸术，把原视频中 A 的脸替换为 B 的脸。

[1] 图来自：https://ai.baidu.com/

[2] 图来自：https://www.spiceworks.com/te…

[3] 图来自：https://medium.com/analytics-…

[4] 2D 计算机视觉：原理、算法及利用

[5] Python 计算机视觉与深度学习实战

[6] 计算机视觉中的深度学习

[7] OpenCV 4 机器学习算法原理与编程实战

[8] 自然语言了解与行业常识图谱：概念、办法与工程落地

[9] 生成反抗网络入门指南（第 2 版）

[10] AI 将来进行式

新人见面礼🎁

在【YUFEI Tech】回复【YUFEI】，即可获取一份优质电子材料；

关于人工智能:计算机视觉的技术与应用

目录

1. 什么是计算机视觉？

2. 计算机视觉的次要技术

2.1 指标辨认

指标辨认的次要过程

2.2 指标检测

指标检测的次要流程

2.3 图像宰割

图像宰割的次要流程

2.4 人脸识别

人脸识别的次要流程

2.5 指标跟踪

指标跟踪的次要流程

2.6 生成反抗网络

生成反抗网络的次要流程

计算机视觉技术的利用

参考资料

新人见面礼🎁