关于视觉设计:带你读论文丨基于视觉匹配的自适应文本识别

摘要:ECCV2020 通过视觉匹配的办法来做文本辨认,解决文档辨认中的文本辨认多样性和泛化性问题本文分享自华为云社区《论文解读二十三:基于视觉匹配的自适应文本辨认》,作者: wooheng。 引言本文工作指标是文本辨认的泛化和灵活性,之前的文本识别方法[1,2,3,4]在很多的繁多场景下都获得了很好的成果,然而一旦推广到另一个蕴含新字体和新语言的场景,要么应用大量数据从新训练,或者针对每个新样本进行微调。 本文基于一个关键点:文本是无限数量离散实体的反复序列,反复的实体是文本字符串中的字符和字形,即文本行图像中字符/符号的视觉示意。假如能够拜访字形示例(即字符的裁剪图像),并要求视觉编码器在给定的文本行图像中定位这些反复的字形。视觉编码器的输入是一个类似度图,它将文本行中每个空间地位与字母表中每个字形的视觉类似度编码,如图1所示。解码器摄取该类似度图以推断最可能的字符串。图2总结了所提出的办法。 图1 用于文本辨认的视觉匹配。以后的文本辨认模型从预约义(固定)字母表中学习特定于字符形态(字形)的判断特色。咱们训练咱们的模型来建设给定字符字形(顶部)和要辨认的文本行图像(左侧)之间的视觉相似性。这使得模型高度适应看不见的字形、新字母表(不同的语言),并且无需进一步训练即可扩大到新的字符类,例如英语→希腊语。更亮的色彩对应于更高的视觉相似性。 图2 自适应视觉匹配的架构。本文将文本辨认问题转化为给定文本线图像中字形样本的视觉匹配问题。左图:体系结构图。视觉编码器 嵌入字形 g 和文本行 x ,并生成相似性映射S,该映射S对每个字形的相似性进行评分。而后,解决(潜在)不齐全视觉匹配中的模糊性,以产生加强的相似性映射S*。最初,应用M中蕴含的实在字形宽度,将相似性分数聚合到输入类概率P。右图:阐明字形宽度如何编码到模型中。字形宽度带(顶部)的高度与其相应字形示例的宽度雷同,其标量值是以像素为单位的字形宽度。字形宽度映射(底部)是一个二进制矩阵,字母表A中的每个字符都有一列;这些列通过将相应的行设置为非零值(=1)来批示字形线图像中字形的范畴。 2.模型构造本文的模型通过视觉匹配定位给定的文本行图像中的字形样本来辨认给定的文本行图像。它将文本行图像和蕴含一组样本的字母图像作为输出,并预测N个类上的概率序列作为输入,其中N等于字母图像中给出的样本数。对于推理,字形线图像是通过并排连贯参考字体的单个字符字形来组装的,而后能够读取该字体中的文本线。 该模型有两个次要局部:(1)视觉相似性编码器(第2.1节),它输入编码文本行图像中每个字形的相似性的相似性图,和(2)一个与字母无关的解码器(第2.2节),它接管这个相似性映射以推断最可能的字符串。在第2.3节中,咱们具体介绍了训练指标。图2给出了模型的扼要示意图。 2.1 视觉相似性编码器输出:所有指标字母的字形;要辨认的文本行图像 目标:失去指标字母的字形在要辨认的文本行图像中的地位 应用视觉编码器 对字形 g 和文本行 x 进行编码,并且生成类似图 S ,示意每一个字形和文本行的每一个地位的类似度。应用余弦间隔计算类似度。 编码器应用有两个残差块的 U-Net 实现,视觉类似度图由文本行和字形行图像沿编码特色宽度的所有地位之间的余弦间隔失去。 2.2 字母无关编码器字母无关解码器将相似性映射离散为沿文本行图像宽度的所有空间地位的样本中每个字形的概率。 一个简略的实现将预测在相似性映射中每个字形的范畴上聚合的相似性得分的argmax或总和。然而,这种策略并不能克服相似性中的模糊性,也不能产生平滑/统一的字符预测。因而分两个步骤进行:首先,相似性消歧义通过思考线图像中的字形宽度和地位,解决字母表中字形的歧义,产生加强的相似性映射(S),其次,类聚合器通过聚合S中每个字形的空间范畴内的分数来计算字形概率。 打消相似性歧义现实的相似性映射具备高相似性的方形区域。这是因为字形和文本行图像中字符的宽度将雷同。因而将字形宽度与部分的x、y坐标一起应用小型MLP编码到类似度图中。x、y坐标的两个通道(标准化为[0,1])和字形宽度重叠起来输出到MLP中。为了消歧义,本文应用一个自我留神模块并输入与S雷同大小的加强相似性的映射S*。 类聚合器将类似图S*映射到每个字形对应的示例字形的概率S∗→P,通过乘矩阵M实现 P = MS∗,其中 M = [ m1, m2 , . . . , m∣A∣]T,mi ∈ {0, 1}=[0,...,0,1,...,1,0,...,0],其中,非零值对应于字形图像中第i个字形的宽度。 推理阶段在推理阶段应用贪心算法解码。 3.训练损失函数应用CTC损失监督字形示例P,以将预测与输入标签对齐。还在每个地位应用辅助穿插熵损失(L sim)来监督视觉编码器S的相似性映射输入。应用实在字符边界框来确定每个字符的空间跨度。总体训练由以下两局部损失组成。 4.试验后果本文与最先进的文本辨认模型进行了比拟,而后推广到新的字体和语言。 图3 VS-1、VS-2:泛化到具备/不具备已知测试字形和减少训练字体数量的新字体。FontSynth测试集上的错误率(以%为单位;↓为更好)。Ours-cross代表穿插字体匹配,其中测试字形未知,训练字体被用作字形样本,当样本字体从训练集中随机抉择时显示mean和standard-dev,selected显示基于置信度主动抉择的最佳匹配示例的后果。R、B、L和I对应于FontSynth训练集中的Regular,Bold,Light,Italic;OS代表Omniglot-Seq数据集。 图4 VS-3:从合成数据到实在数据的推广。Google1000英文文档中仅在合成数据上训练模型的均匀错误率(%;↓更好)。LM代表6-gram语言模型。 5.论断本文提出一种文本识别方法,它能够推广到新鲜的字体视觉格调(字体、色彩、背景等),并且不与特定的字母大小/语言挂钩。它通过将经典文本辨认从新塑造为视觉匹配辨认来实现这一指标,本文曾经证实了匹配能够利用随机形态/字形进行训练。本文的模型可能是第一个one-shot序列辨认的模型,与传统的文本识别方法相比领有卓越的泛化能力,而不须要低廉的适配/微调。尽管该办法曾经被证实用于文本辨认,但它实用于其余序列辨认问题,如语音和动作辨认。 参考文献[1] Jeonghun Baek, Geewook Kim, Junyeop Lee, Sungrae Park, Dongyoon Han, Sangdoo Yun, Seong Joon Oh, and Hwalsuk Lee. What is wrong with scene text recognition model comparisons? dataset and model analysis. In Proc. ICCV, 2019. ...

September 28, 2021 · 1 min · jiezi

关于视觉设计:云小课|ModelArts-Pro-视觉套件-零代码构建视觉AI应用

阅识风波是华为云信息大咖,善于将简单信息多元化出现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您疾速上手华为云。更多精彩内容请单击此处。 摘要:ModelArts Pro 是为企业级AI利用打造的业余开发套件。基于华为云的先进算法和疾速训练能力,提供预置工作流和模型,晋升企业AI利用的开发效率,升高开发难度。本文分享自华为云社区《【云小课】EI第28课 ModelArts Pro 视觉套件 零代码构建视觉AI利用》,作者:阅识风波。 ModelArts Pro 是为企业级AI利用打造的业余开发套件。基于华为云的先进算法和疾速训练能力,提供预置工作流和模型,晋升企业AI利用的开发效率,升高开发难度。 ModelArts Pro提供了视觉套件,旨在帮忙各行业客户疾速开发满足业务诉求的视觉AI利用,同时反对客户自主进行工作流编排,疾速实现AI利用的开发和部署,晋升视觉AI开发效率。 预置工作流批发商品辨认工作流超市、批发商店等场景下,商品种类更新速度快,商品辨认技术会大大晋升商品优化和经营效率。ModelArts Pro提供批发商品辨认工作流,为您提供高精度的商品辨认算法,进步批发商品新品上线效率。 热轧钢板外表缺点检测工作流在钢铁厂中,钢板的材质、热处理工艺以及应用环境等外界因素均会影响钢板的使用寿命,而这些外界因素导致钢板缺点。钻研钢板外表的缺点类型对钢板的使用寿命至关重要,ModelArts Pro提供热轧钢板外表缺点检测工作流,提供高精度钢板外表缺点辨认算法,进步钢板外表缺点检测场景上线效率。 云状辨认工作流察看云的内部形态,即云的形状特色、构造特点和云底高度,对预测天气变动有重要的影响。ModelArts Pro提供云状辨认工作流,为您提供高精度的云状辨认算法,通过云的内部形态预测天气变动。 刹车盘辨认工作流在汽车零部件的生产制作中,经常会同时生产几十、上百种不同型号的产品。是否在出厂前对这些零部件进行高效、精准的分拣,对企业的效益尤为重要。ModelArts Pro提供刹车盘辨认工作流,通过构建刹车盘辨认模型,疾速、精确的辨认刹车盘类别。 无监督车牌检测工作流车牌检测与辨认技术对于交通管理智能化、进步交通执法的稳定性具备重要意义。ModelArts Pro提供无监督车牌检测工作流,基于高精度的无监督车牌检测算法,无需用户标注数据,大大降低标注老本和进步车牌检测场景上线效率。 特色劣势• 场景丰盛,笼罩批发、工业、气象、交通等多种场景。• 模型训练、更新的流程自动化,更新模型简便。• 业余畛域模型,精确辨认和了解图像内容。• 可依据应用过程中的反馈继续优化模型。 零代码构建视觉利用第一步:开明套件目前ModelArts Pro 视觉套件处于公测阶段,首次应用视觉套件须要开明公测权限。 登录ModelArts Pro控制台,抉择行业套件卡片并单击“申请公测”,在申请公测页面依据界面提醒填写所需信息。 申请公测操作实现后,单击“返回我的公测”,进入“我的公测”页面。当“审批状态”显示为“审批通过”时,示意您曾经取得了该行业套件的公测权限。 第二步:委托受权在您应用ModelArts Pro过程中,ModelArts Pro须要进行委托受权,用于拜访ModelArts服务的云资源。如果没有受权,相干性能将不能失常应用。 如果未取得ModelArts委托受权和拜访秘钥(AK/SK)受权,当进入ModelArts Pro控制台的行业套件时,会弹出“拜访受权”对话框。 在弹出的“拜访受权”对话框填写受权信息,而后单击“批准受权”,实现拜访受权的配置。 • “用户名”为以后须要受权的用户名,放弃默认值。• “委托”抉择“modelarts_agency”。• 勾选“我曾经具体浏览并批准《ModelArts服务申明》”。 详情请见配置拜访权限。 第三步:创立利用依据您的行业和利用场景,抉择匹配的工作流,创立您的利用。 1、在ModelArts Pro控制台界面,单击“自然语言解决套件”卡片的“进入套件”。 进入视觉套件控制台。 2、在左侧导航栏抉择“利用开发>工作台”。 默认进入“我的利用”页签。 3、在“我的利用”页签下,单击“新建利用”。 进入“新建利用”页面。 您也能够单击“我的工作流”,切换至“我的工作流”页签,抉择工作流并单击卡片中的“新建利用”。 4、依据业务需要填写“利用名称”、“利用负责人”和“利用形容”,抉择“所属行业”及工作流,而后依据所选工作流填写“资产配置”。 5、确认信息后,单击“确定”。 胜利新建利用。 详情请见新建利用。 第四步:开发并上线利用依据流程指引实现工作流,并将利用公布上线。 批发商品辨认工作流:详情请见批发商品辨认工作流。 热轧钢板外表缺点检测工作流:详情请见热轧钢板外表缺点检测工作流。 云状辨认工作流详情请见云状辨认工作流。 刹车盘辨认工作流详情请见刹车盘辨认工作流。 无监督车牌检测工作流详情请见无监督车牌检测工作流。 第五步:迭代优化保护利用,一直优化迭代。 批发+ModelArts Pro因为蛋糕贴不了条形码,须要人工记忆繁多的蛋糕编码来结算,容易呈现结账谬误、顾客排队工夫长等问题。 基于ModelArts Pro开发的自助商品收银利用可自动识别商品,大大缩短收银等待时间。 ...

August 30, 2021 · 1 min · jiezi