关于人工智能:ABCNet端到端的可训练框架的原理应用及优势对比

ABCNet（Adaptive Bezier Curve Network）是一个端到端的可训练框架，用于辨认任意形态的场景文本。直观的 pipeline 如图所示。采纳了单点无锚卷积神经网络作为检测框架。移除锚定箱能够简化咱们工作的检测。该算法在检测头输入特色图上进行密集预测，检测头由 4 个步长为 1、填充为 1、3×3 核的叠层卷积层形成。
接下来，分两局部介绍拟议的 ABCNet 的要害组成部分：
1）贝塞尔曲线检测
2）bezier align 和辨认分支。

为了简化任意形态的场景文本检测，采纳回归办法，咱们认为贝塞尔曲线是曲线文本参数化的现实概念。Bezier 曲线示意一个以伯恩斯坦多项式为基的参数曲线 c (t)。其定义如式 (1) 所示。
式中，n 示意度数，bi 示意第 i 个控制点，示意伯恩斯坦基多项式，如式（2）所示：

其中是二项式系数。为了用贝塞尔曲线确定文本的任意形态，咱们从现有的数据集中全面地察看任意形态的场景文本。在事实世界中，咱们通过教训证实，三次贝塞尔曲线（即 n 为 3）在实践中对不同类型的任意形态的场景文本是足够的。三次贝塞尔曲线如图所示。

在本节中，将简要介绍如何基于原始正文生成贝塞尔曲线高空真值。任意形态的数据集，例如 Total text 和 CTW1500，对文本区域应用多边形正文。给定曲线边界上的注记点

，其中 pi 示意第 i 个注记点，次要指标是取得方程（1）中三次 Bezier 曲线 c（t）的最佳参数。为此，能够简略地利用规范最小二乘法，如等式（4）所示：

这里 m 示意曲线边界的正文点数量。对于 total-text 和 ctw1500，m 别离为 5 和 7。t 是通过应用累积长度与多段线周长的比率来计算的。
依据方程（1）和方程（4），咱们将原始的多段线正文转换为参数化的贝塞尔曲线。留神，咱们间接应用第一个和最初一个正文点别离作为第一个（b0）和最初一个（b4）控制点。可视化比拟如图 5 所示，其结果表明，生成的后果在视觉上甚至比原始高空真实性更好。此外，基于结构化的 Bezier 曲线边界框，能够很容易地应用前文中形容的 Bezier 对齐将曲线文本扭曲成程度格局，而不会产生显著的变形。Bezier 曲线生成后果的更多示例如图所示。ABCNet 办法的简略性容许它在实践中推广到不同类型的文本。

对于端到端的场景文本识别方法，总是须要大量的自在合成数据，如表 2 所示。然而，现有的 800k SynText 数据集只为大多数直文本提供四边形边界框。为了丰盛和丰盛任意形态的场景文本，咱们尝试用 VGG 合成办法合成了 150k 个合成数据集（94723 个图像蕴含大部分直线文本，54327 个图像蕴含大部分曲线文本）。特地地，从 COCO 文本中过滤出 40k 个无文本背景图像，而后用 [32] 和[17]筹备每个背景图像的宰割遮罩和场景深度，用于以下文本渲染。为了扩充合成文本的形态多样性，对 VGG 合成办法进行了改良，将场景文本与各种艺术字体和语料库合成，并对所有文本实例生成多边形标注。而后应用正文通过 Bezier Ground Truth Generation 中形容的生成办法生成 Bezier Ground Truth。综合数据的示例如图 8 所示。

为了实现端到端训练，以往的大多数办法都采纳了各种采样（特色对齐）的办法来连贯辨认分支。通常，一个采样办法示意一个网络内的区域裁剪过程。换句话说，给定一个特色图和感兴趣区域（RoI），应用抽样办法来抉择 RoI 的特色，并无效地输入一个固定大小的特色图。

然而，以往基于非宰割的办法的采样办法，如 RoI Pooling , RoIRotate , Text-Align-Sampling or RoI Transform，都不能正确地对齐任意形态文本的特色（RoISlide 大量预测片段）。利用一个紧凑的贝塞尔曲线边界盒的参数化性质，ABCNet 提出了用于特色采样的 BezierAlign。Bezieralign 是从 RoIAlign 扩大而来的。与 RoIAlign 不同，BezierAlign 的采样网格的形态不是矩形的。相同，任意形态的网格中的每一列都与文本的贝塞尔曲线边界正交。采样点的宽度和高度别离具备等距距离，它们绝对于坐标进行双线性插值形式化地给出输出特色映射和 Bezier 曲线控制点，同时解决 hout×wout 大小的矩形输入特色映射的所有输入像素。以具备地位（giw，gih）的像素 gi（来自输入的特色图）为例，通过公式（5）计算 t：

而后用 t 和方程（1）计算上 Bezier 曲线的边界点 tp 和下 Bezier 曲线的边界点 bp。利用 tp 和 bp，咱们能够通过方程（6）对采样点 op 进行线性索引：

利用 op 的地位，能够很容易地利用双线性插值来计算结果。辨认分支

得益于共享的骨干个性和 BezierAlign，设计了一个轻量级的辨认分支，如表 1 所示，以便更快地执行。
它由 6 个卷积层、1 个双向 LSTM 层和 1 个全连贯层组成。基于输入分类分数，应用一个经典的 CTC Loss 来进行文本字符串（GT）对齐。请留神，在训练过程中，间接应用生成的 Bezier 曲线 GT 来提取 RoI 特色。因而，检测分支并不影响辨认分支。在推理阶段，RoI 区域被检测 Bezier 曲线所取代。试验局部的融化钻研表明，所提出的 BezierAlign 能够显著进步辨认性能。

ABCNets 在两个最近引入的任意形态的场景文本基准上评估了办法，即 Total-Text 和 CTW1500，它们也蕴含大量的间断文本。ABCNets 还在 Total-Text 进行了简化钻研，以验证办法的有效性。数据集。Total-Text 数据集是在 2017 年提出的最重要的任意形态场景文本基准之一。它收集了各种场景，包含类文本简单场景和低对比度的背景。它蕴含 1555 张图像，其中 1255 张用于训练，300 张用于测试。为了模仿实在的场景，这个数据集的大多数图像都蕴含大量的惯例文本，同时保障每个图像至多有一个蜿蜒文本。文本实例应用多边形进行单词级正文。它的扩大版本改良了训练集的正文，依照文本辨认序列为每个文本实例增加了一个固定的 10 点正文。数据集只蕴含英文文本。为了评估端到端的后果，咱们应用与以前雷同的度量办法，即应用 F -measure 来测量单词的准确性。简化钻研:BezierAlign。为了评估提出的组件的有效性，试验对这个数据集进行简化钻研。首先对采样点的数量如何影响端到端的后果进行敏感性剖析，如表 4 所示。从后果中能够看出，采样点的数量对最终的性能和效率有很大的影响。试验发现在（7，32）F-measure 与 FPS 之间达到最佳均衡，在接下来的试验中作为最初的设置。进一步评估 BezierAlign，表 3 中显示的结果表明，BezierAlign 能够显著改善端到端后果。定性的例子如图 9 所示

贝塞尔曲线检测。
另一个重要的组成部分是贝塞尔曲线检测，它能够实现任意形态的场景文本检测。因而，也进行了试验来评估的工夫耗费贝塞尔曲线检测。表 5 中的结果表明与规范边界盒检测相比，贝塞尔曲线检测没有引入额定的计算。

先进性比照。ABCNet 的一些后果品质如图 10 所示。结果表明，该办法能精确地检测和辨认任意形态的文本。此外，ABCNe 的办法还能够很好地解决直文本，具备近似四边形的严密边界框和正确的辨认后果。图中也呈现了一些谬误，这些谬误次要是因为谬误地辨认了其中一个字符。

CTW1500 是 2017 年提出的另一个重要的任意形态场景文本基准。与 Total-Text 相比，该数据集蕴含中英文文本。此外，正文是基于文本行级别的，它还包含一些相似文档的文本，即，有数能够重叠在一起的小文本。CTW1500 蕴含 1k 训练图像，500 张测试图像。试验。因为该数据集中中文文本的占用十分小，训练时间接将所有中文文本视为“未见”类。试验后果如表 6 所示，表明在端到端场景文本定位方面，ABCNet 能够显著地超过以前最先进的办法。此数据集的示例后果如图 11 所示。从图中，能够看到一些长文本行实例蕴含许多单词，这使得齐全匹配单词准确性变得十分艰难。也就是说一个字符识别谬误将导致整个文本零分。

提出了 ABCNet，一种基于贝塞尔曲线的任意形态场景文本实时端到端定位办法。利用参数化的贝塞尔曲线从新结构任意形态的场景文本，ABCNet 能够用贝塞尔曲线检测任意形态的场景文本，与规范边框盒检测相比引入的计算成本能够忽略不计。应用这种规定的 Bezier 曲线边框，能够通过一个新的 BezierAlign 层天然地连贯一个轻量级的辨认分支。另外，通过利用 Bezier curve 合成数据集和公开数据集，在两个任意形态的场景文本基准测试集 (Total-Text 和 CTW1500) 证实了 ABCNet 能够实现最先进的性能，同时也比以前的办法快得多。

关于人工智能:ABCNet端到端的可训练框架的原理应用及优势对比

ABCNet

ABCNet 算法原理：

Bezier Curve Detection

Bezier Ground Truth Generation

Bezier Curve Synthetic Dataset

Bezier Align

试验后果：

简化钻研:

CTW1500 试验后果数据集。

论断：

Just My Socks（注册教程内含优惠码）

关于人工智能:ABCNet端到端的可训练框架的原理应用及优势对比

ABCNet

ABCNet 算法原理：

Bezier Curve Detection

Bezier Ground Truth Generation

Bezier Curve Synthetic Dataset

Bezier Align

试验后果：

简化钻研:

CTW1500 试验后果数据集。

论断：

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）