关于视觉设计:带你读论文丨基于视觉匹配的自适应文本识别

摘要:ECCV2020 通过视觉匹配的办法来做文本辨认,解决文档辨认中的文本辨认多样性和泛化性问题本文分享自华为云社区《论文解读二十三:基于视觉匹配的自适应文本辨认》,作者: wooheng。 引言本文工作指标是文本辨认的泛化和灵活性,之前的文本识别方法[1,2,3,4]在很多的繁多场景下都获得了很好的成果,然而一旦推广到另一个蕴含新字体和新语言的场景,要么应用大量数据从新训练,或者针对每个新样本进行微调。 本文基于一个关键点:文本是无限数量离散实体的反复序列,反复的实体是文本字符串中的字符和字形,即文本行图像中字符/符号的视觉示意。假如能够拜访字形示例(即字符的裁剪图像),并要求视觉编码器在给定的文本行图像中定位这些反复的字形。视觉编码器的输入是一个类似度图,它将文本行中每个空间地位与字母表中每个字形的视觉类似度编码,如图1所示。解码器摄取该类似度图以推断最可能的字符串。图2总结了所提出的办法。 图1 用于文本辨认的视觉匹配。以后的文本辨认模型从预约义(固定)字母表中学习特定于字符形态(字形)的判断特色。咱们训练咱们的模型来建设给定字符字形(顶部)和要辨认的文本行图像(左侧)之间的视觉相似性。这使得模型高度适应看不见的字形、新字母表(不同的语言),并且无需进一步训练即可扩大到新的字符类,例如英语→希腊语。更亮的色彩对应于更高的视觉相似性。 图2 自适应视觉匹配的架构。本文将文本辨认问题转化为给定文本线图像中字形样本的视觉匹配问题。左图:体系结构图。视觉编码器 嵌入字形 g 和文本行 x ,并生成相似性映射S,该映射S对每个字形的相似性进行评分。而后,解决(潜在)不齐全视觉匹配中的模糊性,以产生加强的相似性映射S*。最初,应用M中蕴含的实在字形宽度,将相似性分数聚合到输入类概率P。右图:阐明字形宽度如何编码到模型中。字形宽度带(顶部)的高度与其相应字形示例的宽度雷同,其标量值是以像素为单位的字形宽度。字形宽度映射(底部)是一个二进制矩阵,字母表A中的每个字符都有一列;这些列通过将相应的行设置为非零值(=1)来批示字形线图像中字形的范畴。 2.模型构造本文的模型通过视觉匹配定位给定的文本行图像中的字形样本来辨认给定的文本行图像。它将文本行图像和蕴含一组样本的字母图像作为输出,并预测N个类上的概率序列作为输入,其中N等于字母图像中给出的样本数。对于推理,字形线图像是通过并排连贯参考字体的单个字符字形来组装的,而后能够读取该字体中的文本线。 该模型有两个次要局部:(1)视觉相似性编码器(第2.1节),它输入编码文本行图像中每个字形的相似性的相似性图,和(2)一个与字母无关的解码器(第2.2节),它接管这个相似性映射以推断最可能的字符串。在第2.3节中,咱们具体介绍了训练指标。图2给出了模型的扼要示意图。 2.1 视觉相似性编码器输出:所有指标字母的字形;要辨认的文本行图像 目标:失去指标字母的字形在要辨认的文本行图像中的地位 应用视觉编码器 对字形 g 和文本行 x 进行编码,并且生成类似图 S ,示意每一个字形和文本行的每一个地位的类似度。应用余弦间隔计算类似度。 编码器应用有两个残差块的 U-Net 实现,视觉类似度图由文本行和字形行图像沿编码特色宽度的所有地位之间的余弦间隔失去。 2.2 字母无关编码器字母无关解码器将相似性映射离散为沿文本行图像宽度的所有空间地位的样本中每个字形的概率。 一个简略的实现将预测在相似性映射中每个字形的范畴上聚合的相似性得分的argmax或总和。然而,这种策略并不能克服相似性中的模糊性,也不能产生平滑/统一的字符预测。因而分两个步骤进行:首先,相似性消歧义通过思考线图像中的字形宽度和地位,解决字母表中字形的歧义,产生加强的相似性映射(S),其次,类聚合器通过聚合S中每个字形的空间范畴内的分数来计算字形概率。 打消相似性歧义现实的相似性映射具备高相似性的方形区域。这是因为字形和文本行图像中字符的宽度将雷同。因而将字形宽度与部分的x、y坐标一起应用小型MLP编码到类似度图中。x、y坐标的两个通道(标准化为[0,1])和字形宽度重叠起来输出到MLP中。为了消歧义,本文应用一个自我留神模块并输入与S雷同大小的加强相似性的映射S*。 类聚合器将类似图S*映射到每个字形对应的示例字形的概率S∗→P,通过乘矩阵M实现 P = MS∗,其中 M = [ m1, m2 , . . . , m∣A∣]T,mi ∈ {0, 1}=[0,...,0,1,...,1,0,...,0],其中,非零值对应于字形图像中第i个字形的宽度。 推理阶段在推理阶段应用贪心算法解码。 3.训练损失函数应用CTC损失监督字形示例P,以将预测与输入标签对齐。还在每个地位应用辅助穿插熵损失(L sim)来监督视觉编码器S的相似性映射输入。应用实在字符边界框来确定每个字符的空间跨度。总体训练由以下两局部损失组成。 4.试验后果本文与最先进的文本辨认模型进行了比拟,而后推广到新的字体和语言。 图3 VS-1、VS-2:泛化到具备/不具备已知测试字形和减少训练字体数量的新字体。FontSynth测试集上的错误率(以%为单位;↓为更好)。Ours-cross代表穿插字体匹配,其中测试字形未知,训练字体被用作字形样本,当样本字体从训练集中随机抉择时显示mean和standard-dev,selected显示基于置信度主动抉择的最佳匹配示例的后果。R、B、L和I对应于FontSynth训练集中的Regular,Bold,Light,Italic;OS代表Omniglot-Seq数据集。 图4 VS-3:从合成数据到实在数据的推广。Google1000英文文档中仅在合成数据上训练模型的均匀错误率(%;↓更好)。LM代表6-gram语言模型。 5.论断本文提出一种文本识别方法,它能够推广到新鲜的字体视觉格调(字体、色彩、背景等),并且不与特定的字母大小/语言挂钩。它通过将经典文本辨认从新塑造为视觉匹配辨认来实现这一指标,本文曾经证实了匹配能够利用随机形态/字形进行训练。本文的模型可能是第一个one-shot序列辨认的模型,与传统的文本识别方法相比领有卓越的泛化能力,而不须要低廉的适配/微调。尽管该办法曾经被证实用于文本辨认,但它实用于其余序列辨认问题,如语音和动作辨认。 参考文献[1] Jeonghun Baek, Geewook Kim, Junyeop Lee, Sungrae Park, Dongyoon Han, Sangdoo Yun, Seong Joon Oh, and Hwalsuk Lee. What is wrong with scene text recognition model comparisons? dataset and model analysis. In Proc. ICCV, 2019. ...

September 28, 2021 · 1 min · jiezi

关于视觉设计:云小课|ModelArts-Pro-视觉套件-零代码构建视觉AI应用

阅识风波是华为云信息大咖,善于将简单信息多元化出现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您疾速上手华为云。更多精彩内容请单击此处。 摘要:ModelArts Pro 是为企业级AI利用打造的业余开发套件。基于华为云的先进算法和疾速训练能力,提供预置工作流和模型,晋升企业AI利用的开发效率,升高开发难度。本文分享自华为云社区《【云小课】EI第28课 ModelArts Pro 视觉套件 零代码构建视觉AI利用》,作者:阅识风波。 ModelArts Pro 是为企业级AI利用打造的业余开发套件。基于华为云的先进算法和疾速训练能力,提供预置工作流和模型,晋升企业AI利用的开发效率,升高开发难度。 ModelArts Pro提供了视觉套件,旨在帮忙各行业客户疾速开发满足业务诉求的视觉AI利用,同时反对客户自主进行工作流编排,疾速实现AI利用的开发和部署,晋升视觉AI开发效率。 预置工作流批发商品辨认工作流超市、批发商店等场景下,商品种类更新速度快,商品辨认技术会大大晋升商品优化和经营效率。ModelArts Pro提供批发商品辨认工作流,为您提供高精度的商品辨认算法,进步批发商品新品上线效率。 热轧钢板外表缺点检测工作流在钢铁厂中,钢板的材质、热处理工艺以及应用环境等外界因素均会影响钢板的使用寿命,而这些外界因素导致钢板缺点。钻研钢板外表的缺点类型对钢板的使用寿命至关重要,ModelArts Pro提供热轧钢板外表缺点检测工作流,提供高精度钢板外表缺点辨认算法,进步钢板外表缺点检测场景上线效率。 云状辨认工作流察看云的内部形态,即云的形状特色、构造特点和云底高度,对预测天气变动有重要的影响。ModelArts Pro提供云状辨认工作流,为您提供高精度的云状辨认算法,通过云的内部形态预测天气变动。 刹车盘辨认工作流在汽车零部件的生产制作中,经常会同时生产几十、上百种不同型号的产品。是否在出厂前对这些零部件进行高效、精准的分拣,对企业的效益尤为重要。ModelArts Pro提供刹车盘辨认工作流,通过构建刹车盘辨认模型,疾速、精确的辨认刹车盘类别。 无监督车牌检测工作流车牌检测与辨认技术对于交通管理智能化、进步交通执法的稳定性具备重要意义。ModelArts Pro提供无监督车牌检测工作流,基于高精度的无监督车牌检测算法,无需用户标注数据,大大降低标注老本和进步车牌检测场景上线效率。 特色劣势• 场景丰盛,笼罩批发、工业、气象、交通等多种场景。• 模型训练、更新的流程自动化,更新模型简便。• 业余畛域模型,精确辨认和了解图像内容。• 可依据应用过程中的反馈继续优化模型。 零代码构建视觉利用第一步:开明套件目前ModelArts Pro 视觉套件处于公测阶段,首次应用视觉套件须要开明公测权限。 登录ModelArts Pro控制台,抉择行业套件卡片并单击“申请公测”,在申请公测页面依据界面提醒填写所需信息。 申请公测操作实现后,单击“返回我的公测”,进入“我的公测”页面。当“审批状态”显示为“审批通过”时,示意您曾经取得了该行业套件的公测权限。 第二步:委托受权在您应用ModelArts Pro过程中,ModelArts Pro须要进行委托受权,用于拜访ModelArts服务的云资源。如果没有受权,相干性能将不能失常应用。 如果未取得ModelArts委托受权和拜访秘钥(AK/SK)受权,当进入ModelArts Pro控制台的行业套件时,会弹出“拜访受权”对话框。 在弹出的“拜访受权”对话框填写受权信息,而后单击“批准受权”,实现拜访受权的配置。 • “用户名”为以后须要受权的用户名,放弃默认值。• “委托”抉择“modelarts_agency”。• 勾选“我曾经具体浏览并批准《ModelArts服务申明》”。 详情请见配置拜访权限。 第三步:创立利用依据您的行业和利用场景,抉择匹配的工作流,创立您的利用。 1、在ModelArts Pro控制台界面,单击“自然语言解决套件”卡片的“进入套件”。 进入视觉套件控制台。 2、在左侧导航栏抉择“利用开发>工作台”。 默认进入“我的利用”页签。 3、在“我的利用”页签下,单击“新建利用”。 进入“新建利用”页面。 您也能够单击“我的工作流”,切换至“我的工作流”页签,抉择工作流并单击卡片中的“新建利用”。 4、依据业务需要填写“利用名称”、“利用负责人”和“利用形容”,抉择“所属行业”及工作流,而后依据所选工作流填写“资产配置”。 5、确认信息后,单击“确定”。 胜利新建利用。 详情请见新建利用。 第四步:开发并上线利用依据流程指引实现工作流,并将利用公布上线。 批发商品辨认工作流:详情请见批发商品辨认工作流。 热轧钢板外表缺点检测工作流:详情请见热轧钢板外表缺点检测工作流。 云状辨认工作流详情请见云状辨认工作流。 刹车盘辨认工作流详情请见刹车盘辨认工作流。 无监督车牌检测工作流详情请见无监督车牌检测工作流。 第五步:迭代优化保护利用,一直优化迭代。 批发+ModelArts Pro因为蛋糕贴不了条形码,须要人工记忆繁多的蛋糕编码来结算,容易呈现结账谬误、顾客排队工夫长等问题。 基于ModelArts Pro开发的自助商品收银利用可自动识别商品,大大缩短收银等待时间。 ...

August 30, 2021 · 1 min · jiezi

极简壁纸_桌面壁纸推荐_20190120

由于这里发图片会被压缩质量,建议访问极简壁纸官网下载高清大图极简壁纸官网 : https://bz.zzzmh.cn (9102年最潮壁纸网站)由于这里发图片会被压缩质量,建议访问极简壁纸官网下载高清大图极简壁纸官网 : https://bz.zzzmh.cn (9102年最潮壁纸网站)

January 20, 2019 · 1 min · jiezi

AI技术在智能海报设计中的应用

背景在视觉设计领域中,设计师们往往会因为一些简单需求付出相当多的时间,比如修改文案内容,设计简单的海报版式,针对不同机型、展位的多尺寸拓展等。这些工作需要耗费大量的时间、人力成本(5~6张/人日),但对设计师的进步成长起到的作用却非常有限。另一方面,精准营销是未来的大趋势,在大流量背景下,首页的海报资源展位需要展示“千人千面”的效果,这对海报的生产效率也提出了非常高的要求。所以,我们美团外卖技术团队尝试结合AI技术,来协助设计师避免这种低收益、高重复的任务,同时低成本、高效率、高质量地完成海报图片的生成。本文以Banner(横版海报)为例,介绍我们在海报设计与AI技术结合方面所进行的一些探索和研究。分析什么是Banner的设计过程?我们尝试总结了对Banner设计的理解,Banner的设计过程是一系列的具备某种特征属性的素材图层的有序叠加过程。这里的特征属性既包括颜色、形状、纹理、主题等视觉属性,也包括位置、大小、贴边等空间属性。在这个过程中,哪些环节可以被机器算法所探索呢?文献[1]研究了如何调整图像的颜色分布,使杂志封面的视觉效果更加符合人眼的视觉特性;文献[2]以此为基础,引入了基于显著性识别的图像裁剪,并使用优化方法来解决布局问题。阿里巴巴的鹿班系统在去年双十一当天,生成1.7亿张Banner;京东内部也在孵化玲珑和莎士比亚系统,更加智能地设计文案和Banner。图1 封面配色&布局设计[2]在设计领域的一些子问题上,可以用算法来挖掘出数据背后的规律(如图1所示)。那么,能否构建一个完整的学习算法和处理系统,统一解决Banner设计中所有的子问题(配色、布局、搭配、生成)呢?技术方案素材图层是Banner的基础元素,其本身可以被特征化,同时组成Banner的若干元素间的叠加顺序可以被序列化,因此,算法实际是在学习“在什么时候,选择某种素材,放在哪里”。图2 流程框架如图2所示,为了解决这个问题,我们设计规划器、优化器、生成器来共同构建海报设计的学习与生产过程。其中:规划器从数据中学习设计师对不同风格下的设计习惯与规律;优化器基于美学质量和设计原则,对前者的输出结果做精细化调整;最后,由生成器选取/生成素材并渲染成图;素材库作为这三个环节的基础,负责素材管理和素材标签化。素材库如何提取素材图片的特征属性,这是比较典型的分类问题。在计算机视觉领域,传统方案是提取图像的颜色、梯度等低级语义特征[3],结合传统的分类器(LR、SVM等)来实现分类。近年来,基于深度学习的方法因为能表达更为复杂的语义特征,逐渐成为主流方法[4]。如图3所示我们提取传统的低级语义特征,以及基于CNN的高级语义特征,来共同完成素材特征属性提取。图3 素材库-特征提取规划器完成素材的数据化工作后,怎样学习Banner的设计过程?作为一种生成模型,对抗生成网络(GAN)[5]在近年广为应用,其优势是可以端到端地训练图像生成模型,但在我们的应用场景下,GAN存在以下两个问题:GAN的过程更像是“黑盒”的过程:输入方面,虽然Conditional-GAN之类的方法可以实现某种程度有条件地可控生成,但对于Banner设计任务来说,其输入信息(文案、目标风格、主体信息)仍然过于复杂;输出方面,GAN直接生成源数据(即图像),但非常缺乏解释性。我们需要的是更加直观、更有解释性的信息,比如素材的类型、颜色、轮廓、位置等。在上文中有提到,Banner设计过程是素材图层依次叠加的过程。因此,我们可以用序列生成模型来拟合这个过程[6]。在建模过程中,我们把素材视作词汇(Word),海报视作句子(Sentence),词汇索引视为离散化的特征索引,素材叠加顺序就可以视为句子中的词顺序[7]。图4 规划器-序列生成图4是我们使用的序列生成模型,输入主体信息和目标风格,输出素材特征的序列。为了增强预测过程中多条路径结果的多样性,我们在监督性地训练每个时刻的输出之外,还引入了评估整个序列合理性的Object loss。如图5所示,借鉴SeqGAN的思想,Object loss可以由判别器来提供[8]。图5 SeqGAN[8]优化器规划器预测素材的量化特征,为了确保最终成图符合美学标准,需要一个后处理的过程(图6)。我们用优化器来解决这个问题。从本质上讲,这是一个优化过程。通过和设计师们的沟通,我们设计了一些基于常规设计理念和美学标准的目标函数,动作集合包括移动、缩放、亮度调整等,结合优化方法,提升Banner的视觉效果。图6 优化器生成器优化后的素材特征序列,通过生成器来渲染成图。如图7所示,对于素材库检索不到符合某种特征属性的素材的情况,我们设计了图像风格迁移的方法来实现图像特征迁移。这里的特征可以是颜色、形状、纹理等低级特征,也可以是某种语义化的视觉风格特征,对后者来说,可以将源图像的内容Content和目标图像的风格Style在某种特征空间(CNN中的某一层)里做融合,实现风格迁移[9,10]。图7 素材生成应用场景及功能拓展“千人千面”的精准营销是未来营销策略的趋势,这对商品素材的丰富性提出了非常高的要求;从为商家赋能的角度来说,也需要为商家提供更多样的海报版式,这也要求系统具备海报风格的快速学习能力和拓展能力。对此,在常规设计风格的研究之外,我们从以下3个方面做了一些拓展研究。主体图片加工商品素材的丰富度与美学质量是精细化营销及海报美学质量非常重要的一环。其中最核心的要求是图像分割的能力[11,12]。以全卷积网络(FCN)为基础,如图8所示,我们采取以下几个在目标分割领域常见的技巧,来实现商品图片的目标分割:Encoder-Decoder结构空洞卷积多尺度特征融合Two-Stage微调网络图8 图像语义分割&抠图(结构图部分参考DeepLab v3+[12])这种基于语义分割方法的结果,在专业设计师人工评审质量的过程中,发现主体边缘有时会出现明显的锯齿感。经过分析,我们认为有以下两个原因:语义分割模型把问题建模为一个“像素级分类过程”,每一个像素的类别都天然地被假设为“非此即彼”,大多数的Segmentation模型都采用Cross-Entropy作为损失函数;因此,无论是从模型结构(CNN)还是从损失函数的角度来说,分割模型会更倾向于全局信息从而丢弃局部结构信息,导致只能得到边缘比较粗糙的分割结果。为此,如图8所示,我们在图像分割的输出结果之外,结合了Image Matting方法:对分割模型的输出结果做形态学变换,生成三值Trimap,分别表示前景区、背景区、未知区;应用常规的Matting方法,比如Bayesian、Close-Form等,以原图像和Trimap图像为输入,输出前景图的Alpha通道;Matting可以使前景主体的边缘更加平滑,视觉质量更高(图9)。图9 商品主体抠图另外,基于图像美学质量评分模型,我们会优先选择质量分高的图片作为主体素材来源。对中低分的图片,未来可以考虑借鉴Cycle-GAN[13]的思想,设计基于半监督和GAN的图像增强网络,美化后再经过图像分割产生主体素材。海报模板拓展上述的常规设计风格的学习属于一种广义的设计风格,需要设计师先期投入很多精力做风格划分以及数据收集、处理。为了快速适配热点场景,我们借鉴图像检索技术(如图10所示),提取素材图片的CNN特征及颜色特征,使用欧式距离来度量素材相似度,这能节省人工打标签的成本,实现基于固定模板的自动拓展及生成(海报临摹)。图10 素材图像检索与模板拓展多分辨率拓展在日常工作中,设计师在设计出Banner后,往往要花费很长时间对不同展位、不同版本、不同机型做多尺寸适配(如图11所示)。能否用算法来协助人工提效?在素材已经确定,并且相互的位置关系近乎确定的条件下做多分辨率适配,这本质上是一个优化问题,我们在上文布局优化器的基础上,增加元素的局部相对位置与全局绝对位置的拓扑关系作为目标函数。目前,系统支持在某个固定宽高比±30%范围内的任意分辨率适配,未来会进一步扩大适配范围。图11 多分辨率拓展总结目前,我们的Banner智能设计系统为钻展(外卖首页广告位)、商家店铺装修等业务提供稳定的设计能力;素材加工等子能力也在为外卖、闪购等商品图片提供技术支持。后续我们会从扩展常规设计风格、语义相关的颜色及素材挖掘、自动解析数据、构建自评估学习闭环等方面继续研究,进一步提高算法的设计能力和适用性,尽可能协助设计师提高效率,降低高重复性工作的时间和经济成本。参考文献[1] A. Jahanian, J. Liu, D. Tretter, Q. Lin, E. O’Brien-Strain, S. Lee, N. Lyons, and J. P. Allebach. “Automatic Design of Colors for Magazine Covers”. In Proc. IS&T/SPIE Electronic Imaging, International Society for Optics and Photonics, 2013[2] X. Y. Yang, T. Mei, Y. Q. Xu, Y. Rui, S. P. Li. “Automatic Generation of Visual-Textual Presentation Layout”. ACM Transactions on Multimedia Computing, Communications, and Applications, 2017[3] David G. Lowe. “Distinctive Image Features from Scale-Invariant Keypoints”. International journal of computer vision, 2004[4] Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton. “ImageNet Classification with Deep Convolutional Neural Networks”. NIPS, 2012[5] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, Y. Bengio. “Generative Adversarial Networks”. NIPS, 2014[6] K. Kawakami. “Supervised Sequence Labelling with Recurrent Neural Networks”. Studies in Computational Intelligence, 2008[7] T. Mikolov. “Statistical Language Models based on Neural Networks”. 2012[8] L. Yu, W. Zhang, J. Wang, Y. Yu. “SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient”. AAAI, 2017[9] L.A. Gatys, A.S. Ecker, M. Bethge. “Image Style Transfer Using Convolutional Neural Networks”. CVPR, 2016[10] Y. Li, M.Y. Liu, X. Li, M.H. Yang, J. Kautz. “A Closed-form Solution to Photorealistic Image Stylization”. ECCV, 2018[11] J. Long, E. Shelhamer, T. Darrell. “Fully Convolutional Networks for Semantic Segmentation”. CVPR, 2015[12] L.C. Chen, Y. Zhu, G. Papandreou, F. Schroff, H. Adam. “Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation”. ECCV, 2018[13] J.Y. Zhu, T. Park, P. Isola, A. A. Efros. “Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks”. ICCV, 2017作者简介晓星,2017年6月加入美团,目前主要负责美团外卖图像内容挖掘、增强、生成方面的相关工作,致力于图像相关技术的积累及落地。 ...

December 28, 2018 · 2 min · jiezi