关于文本处理:文本检测与识别白皮书-32第二节场景文本识别方法

3.2.2.1 基于CTC的无需宰割的场景文本识别方法基于时序连贯序列(CTC)的天然场景文本辨认算法。时序连贯序列(CTC)算法晚期由Graves等人(2016)提出,用以训练循环神经网络(Cho 等,2014;Hochreiter 和Schmidhuber,1997),并间接标记未宰割的特色序列。CTC 算法在多个畛域均证实了它的优异性能,例如语音辨认(Graves 等,2013;Graves 和Jaitly,2014)和联机手写文本辨认(Graves等,2009;Graves,2012)。对于天然场景文本辨认言,CTC 算法通常作为转录层,通过计算条件概率将深度卷积神经网络或循环神经网络提取的特色序列间接解码为指标字符串序列。  得益于CTC 算法在语音解决畛域的胜利利用,一些钻研人员(Su 和Lu,2014;He 等,2016b;Shi 等,2017b)率先将其利用于天然场景文本辨认算法中以改善解码性能。例如,Shi 等人(2017b)将天然场景文本辨认工作视为序列辨认工作,并提出了一个可端到端训练的网络模CRNN(convolutional recurrent neural network),其构造如图 所示。该办法不仅无需逐字符宰割的简约操作,而且充沛联合了深度卷积神经网络和循环神经网络的长处,无效改善了天然场景文本辨认算法的性能。 尔后,大量基于CTC 算法解码的天然场景文本辨认算法(Liu等,2016b; Su 和Lu,2017; Yin 等,2017; Wang 和Hu,2017;Gao 等,2018,2019;Qi 等,2019)展现出了优良的辨认性能。然而,一些钻研人员(Liu 等,2018a)认为CTC 算法趋向于产生高度尖利和适度自信的预测散布,这是过拟合的体现。为了解决上述难点,Liu 等人(2018a)引入最大条件熵的正则化项加强其泛化性,并激励CTC 算法摸索更多可行的无效门路。Feng 等人(2019b)将CTC 算法与焦点损失函数相交融,以解决样本类别极度不平衡的天然场景文本辨认问题。Hu 等人(2020)利用图卷积神经网络改善基于CTC 算法解码的天然场景文本辨认算法的辨认精度和鲁棒性。 尽管CTC 算法具备很好的解码性能,并进一步推动了天然场景文本辨认畛域的倒退,然而它也面临着一些局限性:(1)CTC 算法的底层实践根底绝对简单,间接利用CTC 算法解码将会造成很大的计算耗费;(2)CTC 算法容易产生高度尖利和适度自信的预测散布(Miao 等,2015),当呈现反复字符时,解码性能降落;(3)因为CTC 算法本身构造和实现形式的限度,它很难利用于2 维的预测问题,例如不规则的天然场景文本辨认问题(不规则的天然场景文本辨认是指待辨认的文本在天然场景文本图像中的散布出现非凡的空间结构而非程度方向)。 为了解决CTC 算法无奈利用于不规则的天然场景文本辨认工作,Wan 等人(2019)通过沿着高度方向减少维度,扩大原始的CTC 算法。只管该办法在肯定水平上改善了辨认性能,然而并没有从根本上解决CTC 算法利用于二维预测工作的难点。因而,基于CTC 的天然场景文本辨认算法依然存在应用场景的限度。 将CTC 算法利用于解决2 维预测问题是将来畛域钻研中一个有后劲的钻研方向。  3.2.2.2基于注意力机制的无需宰割的场景文本识别方法基于注意力机制的天然场景文本辨认算法。注意力机制由Bahdanau 等人(2015)提出,晚期用于改善机器翻译算法的性能。注意力机制以人类的注意力特点为原型,即当人们在察看事物时,眼光往往聚焦到感兴趣的事物上而疏忽无用信息的烦扰。同样地,注意力机制能够主动地调配不同时刻的权重,达到“留神”的目标。 在机器翻译畛域,注意力机制的特点是能够主动搜查并高亮与以后预测词相干的句子成分,辅助生成预测词。近年来,注意力机制在多个畛域都获得了优异的性能,例如图像形容(He等,2019)、文本辨认(Shi 等,2019)和遥感图像分类(Wang 等,2019d) 等。对于天然场景文本辨认而言,注意力机制经常与循环神经网络联合应用,作为转录层,生成指标字符串序列。   受启发于机器翻译畛域注意力机制的胜利利用,大量基于注意力机制解码的天然场景文本辨认算法(Lee 和Osindero,2016;Shi 等,2016,2019;Yang等,2017,2019;Cheng 等,2018;Luo 等,2019;Li 等,2019; Zhan 等, 2019; Zhang 等, 2019b; Baek 等,2019a;Zhan 和Lu,2019)失去宽泛钻研。 ...

October 31, 2022 · 1 min · jiezi

关于文本处理:文本检测与识别白皮书第三章第三节算法模型

3.1.3 罕用的文本检测模型R-CNN、Fast R-CNN、Faster R-CNN 1)R-CNN(CVPR 2014, TPAMI 2015)2014年论文《Rich feature hierarchies for accurate object detection and semantic segmentation Tech report》提出R-CNN模型,即Regions with CNN features。这篇论文能够算是将CNN办法利用到指标检测问题上的开山之作。R-CNN的算法原理:  RCNN算法分成四个步骤:(1)获取输出图像(2)提取大概2000个自下而上的候选区域(3)应用大型卷积神经网络(CNN)计算每个倡议的特色(4)应用特定分类的线性反对向量机(SVM)对每个区域进行分类。 试验后果:表1显示了VOC 2010数据集上的试验残缺后果。试验将R-CNN办法与四个强Baseline进行了比拟,其中包含SegDPM,它将DPM检测器与语义宰割零碎的输入相结合,并应用额定的检测器间上下文和图像分类器从新排序。最亲密的比拟是与Uijlings等人钻研的UVA零碎,因为R-CNN的零碎应用雷同的区域候选算法。为了对区域进行分类,UVA的办法构建了一个四级空间金字塔,并应用密集采样的SIFT、扩大的OpponentSIFT和RGBSIFT描述符对其进行填充,每个向量应用4000字的码本进行量化。采纳直方图相交核反对向量机进行分类。与UVA的多特色非线性核SVM办法相比,R-CNN在mAP方面获得了很大的改良,从35.1%进步到53.7%,同时速度也更快。R-CNN的办法在VOC 2011/12测试中达到了相似的性能(53.3%mAP)。 图3将R-CNN与ILSVRC 2013年较量的参赛作品以及赛后的OverFeat后果进行了比拟。R-CNN取得了31.4%的mAP,显著当先于OverFeat第二好的24.3%。为了理解AP在不同类别上的散布状况,还提供了方框图,并在表8中的文章开端提供了一个perclass AP表。大多数竞争对手提交的材料(OverFeat、NEC-MU、UvAEuvision、Toronto A和UIUC-IFP)都应用了卷积神经网络,这表明CNN如何利用于指标检测存在显著差别,导致后果差别很大。  首先查看CNN不在PASCAL进行微调,即所有CNN参数仅在ILSVRC 2012上进行预训练后的后果。逐层剖析性能(表2第1-3行)表明,fc7的特色概括起来比fc6的特色更差。这意味着,在不升高地图品质的状况下,能够删除29%或1680万个CNN参数。更令人诧异的是,删除fc7和fc6会产生十分好的后果,只管pool5性能仅应用CNN 6%的参数计算。CNN的大部分提取特色的能力来自其卷积层,而不是更大的密集连贯层。这一发现表明,仅应用CNN的卷积层就能够计算任意大小图像的浓密特色图(从HOG的意义上讲)的潜在效用。这种示意形式将反对在pool5个性的根底上应用滑动窗口检测器(包含DPM)进行试验。 在VOC 2007 trainval上微调了CNN的参数后,当初来看一下CNN的后果。改良是惊人的(表2第4-6行):微调将mAP进步了8.0个百分点,达到54.2%。fc6和fc7的微调带来的晋升要比pool5大得多,这表明从ImageNet学习到的pool5性能是通用的,大部分改良都是通过学习特定畛域的非线性分类器取得的。所有R-CNN变体的性能都显著优于三个DPMBaseline(表2第8-10行),包含应用性能学习的两个。与只应用HOG性能的最新版本DPM相比,R-CNN的mAP进步了20多个百分点:54.2%比33.7%,绝对进步了61%。HOG和sketch令牌的组合比独自的HOG产生2.5个mAP,而HSC比HOG进步了4个mAP(与它们的专用DPM Baseline进行外部比拟时,两者都使用性能低于开源版本的非公开DPM实现)。这些办法别离实现了29.1%和34.3%的MAP。  在表3中,试验展现了应用Simonyan和Zisserman最近提出的16层深度网络进行VOC 2007测试的后果。该网络是最近ILSVRC 2014分类挑战赛中体现最好的网络之一。该网络具备由13层3×3卷积核组成的同质构造,其中交叉有5个最大池层,顶部有3个齐全连贯的层。对于OxfordNet,试验将该网络称为“O-Net”,对于TorontoNet,试验将baseline称为“T-Net”。 为了在R-CNN中应用O-Net,试验从Caffe模型Zoo1下载了VGG ILSVRC 16层模型的公开预训练网络权重,而后应用与T-Net雷同的协定对网络进行微调。惟一的区别是依据须要应用较小的小批量(24个示例),以适应GPU内存。表3中的结果表明,应用O-Net的RCNN显著优于应用T-Net的R-CNN,将mAP从58.5%减少到66.0%。然而,在计算工夫方面有一个相当大的毛病,O-Net的向前传递大概比T-Net长7倍。  成果:R-CNN在pascal voc2007上的检测后果从DPM HSC的34.3%间接晋升到了66%(mAP)。R-CNN速度慢的起因:对图像提取region proposal(2000个左右)之后将每个proposal当成一张图像进行后续解决(利用CNN提取特色+SVM分类),实际上对一张图像进行了2000次提取特色和分类的过程。 2)Fast R-CNN(ICCV 2015)Fast R-CNN的算法原理:  Fast R-CNN算法步骤:(1)输出待检测图像(2)利用Selective Search算法在输出图像中提取出2000个左右的候选区域,(3)将这些候选区域输出到CNN进行特征提取(4)对于卷积特色层上的每个候选区域进行RoI Pooling操作,失去固定维度的feature map;(5)提取到的特色输出全连贯层,而后用Softmax进行分类,对候选区域的地位进行回归。 试验后果:在VOC07上,试验比拟了Fast R-CNN、R-CNN和SPPnet。所有办法都从雷同的预训练VGG16网络开始,并应用边界框回归。VGG16 SPPnet后果由SPPnet BB的作者计算得出。SPPnet在培训和测试期间应用五个量表。与SPPnet相比,Fast R-CNN的改良表明,只管Fast R-CNN应用单尺度训练和测试,但微调conv层能够大幅提高mAP(从63.1%进步到66.9%)。R-CNN取得了66.0%的mAP。主要的一点是,SPPnet在帕斯卡语中没有标记为“艰难”的例子。删除这些示例将Fast R-CNN映射进步到68.1%。所有其余试验都应用“艰难”的例子。  在VOC 2010 and 2012数据集中,试验将Fast R-CNN(简称FRCN)与公开排行榜comp4(内部数据)上的顶级办法进行比拟(表2,表3)。对于NUS NIN c2000和BabyLearning办法,目前没有相干论文,试验无奈找到所用ConvNet体系结构的确切信息;它们是网络设计中网络的变体。所有其余办法都是从雷同的预训练VGG16网络初始化的。Fast R-CNN以65.7%的mAP在VOC12上获得了最佳后果(额定数据为68.4%)。 ...

October 21, 2022 · 1 min · jiezi

关于文本处理:4种基于像素分割的文本检测算法

摘要:文本检测是文本读取辨认的第一步,对后续的文本辨认有着重大的影响。个别场景下,能够通过对通用指标检测算法进行配置批改,来实现对文本行的检测定位。本文次要介绍基于像素宰割的文本检测算法。本文分享自华为云社区《技术综述十四:蜿蜒文本检测算法(二)》,作者: 我想静静 。 背景介绍文本检测是文本读取辨认的第一步,对后续的文本辨认有着重大的影响。个别场景下,能够通过对通用指标检测算法进行配置批改,来实现对文本行的检测定位。然而在蜿蜒文字场景,通用指标检测算法无奈实现对文字边框的精准表述。因而,近年来很多学术论文都提出了新鲜的解决场景文字检测的算法,次要包含两种思路:1. 基于区域重组的文本检测;2. 基于像素宰割的文本检测。本文次要介绍基于像素宰割的文本检测算法。 PSENetPSENet 是一个纯宰割的文本检测办法,该办法的初衷是为了无效地拆散任意形态的相邻文本。它通过预测多个尺度的文本宰割图来实现这个目标。具体如图1所示,这里以预测3个尺度的宰割图为例,即(a),(e),(f)。后处理的流程如下:首先从最小尺度的宰割图(a)给各个连贯组件调配标签,而后将(a)向周围扩张从而合并(e)中的被预测为文本的像素。同理,合并(f)中的文本像素。 图1. PSENet 渐进式扩大过程 这种渐进地、从小到大合并相邻文本像素的办法能无效地拆散相邻文本实例,然而付出的代价就是速度很慢,通过C++能缓解速度慢的问题。 PANPAN次要是针对现有的文本检测办法速度太慢,不能实现工业化利用而设计的。该办法从两方面来晋升文本检测的速度。第一,从网络结构上,该办法应用了轻量级的ResNet18作为backbone。但ResNet18的特征提取能力不够强,并且失去的感触野不够大。因而,进一步提出了轻量级的特色加强模块和特色交融模块,该特色加强模块相似于FPN,且能够多个级联在一起。特色加强模块在只减少大量的计算量的前提下无效地加强了模型的特征提取能力,并增大了感触野。第二,从后处理上晋升速度。该办法通过预测文本区域,文本核心区域(kernel),以及像素间的类似度来检测文本。应用聚类的思维,kernel是聚类核心,文本像素是须要聚类的样本。为了聚类,属于同一个文本实例的kernel和对应的像素的类似度向量之间的间隔应该尽可能小,不同kernels的类似度向量的间隔应该远。在推理阶段,首先依据kernel失去连贯组件,而后沿着周围合并与kernel的间隔小于阈值d的像素。该办法在实现高精度的同时还获得了实时的文本检测速度. 图2. PAN网络结构 MSRMSR是为了解决多尺度文本检测艰难而提出来的。与别的文本检测办法不同,该办法应用了多个一样的backbone,并将输出图像下采样到多个尺度之后连同原图一起输出到这些backbone,最初不同的backbone的特色通过上采样之后进行交融,从而捕捉了丰盛的多尺度特色。网络最初预测文本核心区域、文本核心区域每个点到最近的边界点的x坐标偏移和y坐标偏移。在推理阶段,文本核心区域的每个点依据预测的x/y坐标偏移失去对应的边界点,最终的文本轮廓是突围所有边界点的轮廓。 图3. MSR算法框架 图4:MSR网络结构 该办法的长处是对于多尺度文本有较强的检测能力,然而因为该办法定义的文本核心区域只是文本区域在高低方向上进行了放大,而左右方向没有放大,因而无奈无效拆散程度上相邻的文本。 DBDB次要是针对现有的基于宰割的办法须要应用阈值进行二值化解决而导致后处理耗时且性能不够好而提出的。该办法很奇妙地设计了一个近似于阶跃函数的二值化函数,使得宰割网络在训练的时候能学习文本宰割的阈值。此外,在推理阶段,该办法依据文本核心区域的面积和周长间接扩张肯定的比例失去最终的文本轮廓,这也进一步晋升了该办法的推理速度。整体上而言,DB对基于像素宰割的文本检测办法提供了一个很好的算法框架,解决了此类算法阈值配置的难题,同时又有较好的兼容性--开发者能够针对场景难点对backbone进行革新优化,达到一个较好的性能和精度的均衡。 图5. DB网络结构 基于像素宰割的算法能精准地预测出任意形态的文本实例,而后对于重叠文本区域,很难能将不同实例辨别开来。要真正将该系列算法落地,满足业务需要,将来需解决重叠文本的问题。 Reference[1]. Wang W, Xie E, Li X, et al. Shape robust text detection with progressive scale expansion network[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 9336-9345. [2]. Wang W, Xie E, Song X, et al. Efficient and accurate arbitrary-shaped text detection with pixel aggregation network[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 8440-8449. ...

August 13, 2021 · 1 min · jiezi

关于文本处理:带你了解弯曲文本检测算法的两种思路区域重组和像素分割

摘要:文本检测是文本读取辨认的第一步,对后续的文本辨认有着重大的影响。本文分享自华为云社区《技术综述十三:蜿蜒文本检测算法(一)》,作者: 我想静静。 背景介绍文本检测是文本读取辨认的第一步,对后续的文本辨认有着重大的影响。个别场景下,能够通过对通用指标检测算法进行配置批改,来实现对文本行的检测定位。然而在蜿蜒文字场景,通用指标检测算法无奈实现对文字边框的精准表述。因而,近年来很多学术论文都提出了新鲜的解决场景文字检测的算法,次要包含两种思路:1. 基于区域重组的文本检测;2. 基于像素宰割的文本检测。 区域重组的文本检测算法PixelLinkPixelLink次要是针对相邻文本难以拆散这个问题而提出的。该办法次要是预测文本/非文本区域,以及每个像素和它的上、下、左、右、左上、右上、左下、右下的像素之间的连贯关系。在推理阶段,被预测为文本的像素和与该像素具备连贯关系的像素被连贯在一起。最初每个连贯组件的最小外接矩形作为文本边框。 图1. PinxelLink 算法框架 因为应用了基于连通域的办法进行文本像素汇聚,导致该办法对噪声比拟敏感,在推理阶段容易生成一些面积较小的false positives。作者通过去除掉短边小于10个像素或者面积小于300个像素的检测后果来缓解这个问题。 TextSnakeTextSnake 次要是针对应用四边形框不能无效地检测任意形态文本而提出的。该办法应用一系列重叠的圆盘来示意文本区域,每个圆盘有特定的圆心、半径、方向。如图1所示,通过预测文本区域、文本中心线(实际上是核心区域)、文本中心线上每个点对应的半径以及角度来重建文本轮廓。后处理阶段须要从预测的文本核心区域取得多个中心点作为圆盘的圆心,而后依据圆心对应的半径画圆,最初将所有圆的轮廓包围起来失去最终的文本边界框。 图2. TextSnake 文本表征办法 图3. 中心点机制 取得圆盘中心点的步骤如图3所示,首先在预测的文本核心区域随机取一个点,而后依据预测的方向做该点的切线和法线,法线和文本核心区域的两端的交点的中点(图(a)的红点)即是该处的中心点(作为圆盘的圆心)。中心点沿着两个相同的方向后退肯定的步长,失去两个新的点,而后依据这两个新的点再寻找对应的中点。以此类推,直到进行到文本核心区域的两端。 该办法能无效地检测任意形态、方向的文本,然而后处理比较复杂且耗时。 CRAFTCRAFT次要是针对基于字符级的文本检测办法对于曲形文本检测存在限度的问题而提出的,但同样实用于蜿蜒文本检测。该论文的思路是通过回归字符和字符间的亲和力来检测任意形态文本,这里的亲和力是用于示意相邻的字符是否属于同一个文本实例。此外,因为很多数据集没有提供字符级标注,本文提出一个弱监督算法来从字级标注中生成字符级标注。 图4. CRAFT网络架构 如图4所示,字符区域和相邻字符亲和力都是通过一个通道进行回归失去。 图5. CRAFT 字符区域的ground-truth生成办法 用于训练模型的字符区域得分和亲和力得分的ground truth生成过程如图5所示。对于字符区域得分,首先生成一个2D高斯图,而后计算该高斯图变换到对应的字符框的透视变换矩阵,最初应用这个矩阵将2D高斯图变换到相应的字符区域。对于亲和力得分的ground-truth的生成也是应用雷同的办法,前提只须要取得亲和力框。取得亲和力框的过程如下:1. 每个字符框连贯对角线将字符框划分为4个三角形,取上下方的三角形的核心作为亲和力框的顶点。2.相邻两个字符框失去的2个上三角形和下三角形的核心作为四边形的顶点形成了一个亲和力边框。 弱监督字符生成算法生成字符伪标签的过程: 1. 应用在合成数据集训练好的模型预测剪裁下来的文本区域的字符区域得分;2. 应用分水岭算法失去每个字符区域;3. 将坐标变换到原图失去理论的字符边框坐标。 图6. CRAFT 弱监督学习过程 后处理:在推理阶段,预测出字符和亲和力图之后,置信度大于指定阈值的字符区域和亲和力区域都被置为1。而后标记每个连通区域。最初,对于四边形文本,应用最小外界矩形作为边框。 图7. 蜿蜒文本边框重组过程。 对于曲形文本,取得文本轮廓的过程如图7所示:第一步是沿着字符的方向找到每个字符区域的部分最长线;每条线的核心连接起来的线为中心线;每条部分最长线旋转到与中心线垂直;两端的线挪动到文本区域的两端;将所有端点连贯失去曲形文本边框。 区域重组的文本检测算法PSENetPSENet 是一个纯宰割的文本检测办法,该办法的初衷是为了无效地拆散任意形态的相邻文本。它通过预测多个尺度的文本宰割图来实现这个目标。具体如图1所示,这里以预测3个尺度的宰割图为例,即(a),(e),(f)。后处理的流程如下:首先从最小尺度的宰割图(a)给各个连贯组件调配标签,而后将(a)向周围扩张从而合并(e)中的被预测为文本的像素。同理,合并(f)中的文本像素。 图1. PSENet 渐进式扩大过程 这种渐进地、从小到大合并相邻文本像素的办法能无效地拆散相邻文本实例,然而付出的代价就是速度很慢,通过C++能缓解速度慢的问题。 PANPAN次要是针对现有的文本检测办法速度太慢,不能实现工业化利用而设计的。该办法从两方面来晋升文本检测的速度。第一,从网络结构上,该办法应用了轻量级的ResNet18作为backbone。但ResNet18的特征提取能力不够强,并且失去的感触野不够大。因而,进一步提出了轻量级的特色加强模块和特色交融模块,该特色加强模块相似于FPN,且能够多个级联在一起。特色加强模块在只减少大量的计算量的前提下无效地加强了模型的特征提取能力,并增大了感触野。第二,从后处理上晋升速度。该办法通过预测文本区域,文本核心区域(kernel),以及像素间的类似度来检测文本。应用聚类的思维,kernel是聚类核心,文本像素是须要聚类的样本。为了聚类,属于同一个文本实例的kernel和对应的像素的类似度向量之间的间隔应该尽可能小,不同kernels的类似度向量的间隔应该远。在推理阶段,首先依据kernel失去连贯组件,而后沿着周围合并与kernel的间隔小于阈值d的像素。该办法在实现高精度的同时还获得了实时的文本检测速度. 图2. PAN网络结构 MSRMSR是为了解决多尺度文本检测艰难而提出来的。与别的文本检测办法不同,该办法应用了多个一样的backbone,并将输出图像下采样到多个尺度之后连同原图一起输出到这些backbone,最初不同的backbone的特色通过上采样之后进行交融,从而捕捉了丰盛的多尺度特色。网络最初预测文本核心区域、文本核心区域每个点到最近的边界点的x坐标偏移和y坐标偏移。在推理阶段,文本核心区域的每个点依据预测的x/y坐标偏移失去对应的边界点,最终的文本轮廓是突围所有边界点的轮廓。 图3. MSR算法框架 图4:MSR网络结构 该办法的长处是对于多尺度文本有较强的检测能力,然而因为该办法定义的文本核心区域只是文本区域在高低方向上进行了放大,而左右方向没有放大,因而无奈无效拆散程度上相邻的文本。 DBDB次要是针对现有的基于宰割的办法须要应用阈值进行二值化解决而导致后处理耗时且性能不够好而提出的。该办法很奇妙地设计了一个近似于阶跃函数的二值化函数,使得宰割网络在训练的时候能学习文本宰割的阈值。此外,在推理阶段,该办法依据文本核心区域的面积和周长间接扩张肯定的比例失去最终的文本轮廓,这也进一步晋升了该办法的推理速度。整体上而言,DB对基于像素宰割的文本检测办法提供了一个很好的算法框架,解决了此类算法阈值配置的难题,同时又有较好的兼容性--开发者能够针对场景难点对backbone进行革新优化,达到一个较好的性能和精度的均衡。 图5. DB网络结构 基于像素宰割的算法能精准地预测出任意形态的文本实例,而后对于重叠文本区域,很难能将不同实例辨别开来。要真正将该系列算法落地,满足业务需要,将来需解决重叠文本的问题。 Reference[1]. Deng D, Liu H, Li X, et al. Pixellink: Detecting scene text via instance segmentation[C] //Proceedings of the AAAI Conference on Artificial Intelligence. 2018, 32(1). ...

July 28, 2021 · 2 min · jiezi

关于文本处理:ts的快速学习

Typescript 的价值这个typescript是微软推出来的,据说是将来js的进化。据说是js如同是流氓,很多货色不清不楚。而ts却分明的明显各自的价值。 第一节全局装置:cnpm i typescript -g装置实现试试是否胜利:tsc -v然而这个货色是不能间接用的,须要像less一样转码最终文件就会变成js了 第一节第一节第一节第一节第一节第一节第一节第一节第一节第一节第一节第一节第一节第一节第一节第一节第一节第一节第一节第一节第一节第一节第一节第一节第一节第一节第一节第一节第一节第一节第一节

August 30, 2020 · 1 min · jiezi

关于文本处理:基于elementUI的实战

第1节我的项目概述:整体就是我的项目是电商后盾我的项目开发商品,订单,权限 第2节本我的项目是基于PC端,多端都是用同一个数据库 第3节功能模块如下: 数量类型1用户登录2退出登录3用户治理4权限治理5商品治理6订单治理7数据统计后端技术站使用的Node.js,express,mySQL 第4节本我的项目基于Vue的技术站(SPA单页面应用程序) 用户->前端我的项目->后端我的项目->数据库后端操作数据库,并且发送API接口,而后前端绘制页面并且使用ajax调用API接口前端根本应用的几个货色 VueVue-routerElementUIAxiosEcharts第5节码云疏忽 第6,7节码云上传疏忽 第8节第一步装置:phpStudy2016而后下一步下一步就行了 第二步敞开Apache(发音:啊怕骑):右下角的...其它选项菜单>服务管理器>Apache>进行 第三步导入数据库:百度网盘下载提取码:xmh9 第四步解压:解压后关上,外面有一个文件夹db,进去就有一个sql的文件了而后还是关上软件外面的右下角有一个按钮MySQL管理器> MySQL导入导出> MySQL明码:root > 下方(还原)抉择还原文件>还原到数据库名称:mydb>导入就行了,cmd这个窗口过一会主动敞开---------查问是否胜利---------关上方才的其余选项菜单>MySQL工具>关上数据库目录有一个文件夹叫做Mydb外面有货色就证实胜利 第9节运行服务:找到你的文件夹vue_api_server在上方的文件门路 全选状态下输出 cmd就能进入cmd,而后输出cnpm i或者npm install而后再输出node ./app.js运行 数值作用200申请胜利201创立胜利204删除胜利400申请地址不存在401未受权403被禁止拜访404资源不存在422创立后,验证谬误500外部谬误第10节登录退出这里阐明一点,前后端不存在跨域问题就用 session前后端若存在跨域问题就用 token这次开发存在着跨域问题,所以须要应用token这个形式,步骤如下:用户登录发送给服务器,如果胜利.服务器返回token这个随机码!这个随机码保留在客户端就证实我正在胜利的此岸转悠,随之你的所有货色:比方权限也随着你的token而扭转,你点击删除这个ID,带着ID和token飞到了服务器,服务器会检测你有没有资格!而后通知你。拍板yes点头No来是come 去是go 第11节介绍:首先应用elementUI的几个组件el-form + el-form-item + el-input + el-button额定的就是第三方字体 第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节第1节

August 30, 2020 · 1 min · jiezi

关于文本处理:用-Lilac-Parser-代替正则来抓取文本的例子

lilac-parser 是我用 ClojureScript 实现的一个库, 能够做一些正则的性能.看名字, 这个库设计的时候更多是一个 parser 的思路,从应用来说, 当做一个正则也是比拟顺的. 尽管不如正则简短明了.正则的毛病次要是基于字符串状态编写, 须要本义, 规定长了就不好保护了.而 lilac-parser 的形式, 就挺容易进行组合的, 我这边举一些例子 首先是 is+ 这个规定, 进行准确匹配, (parse-lilac "x" (is+ "x")) ; {:ok? true, :rest nil}(parse-lilac "xyz" (is+ "xyz")) ; {:ok? true, :rest nil}(parse-lilac "xy" (is+ "x")) ; {:ok? false}(parse-lilac "xy" (is+ "x")) ; {:ok? true, :rest ("y")}(parse-lilac "y" (is+ "x")) ; {:ok? false}能够看到, 头部匹配上的表达式, 都返回了 true.后边是否还有其余内容, 须要通过 :rest 字段再去独自判断了. 当然准确匹配比较简单, 而后是抉择匹配, (parse-lilac "x" (one-of+ "xyz")) ; {:ok? true}(parse-lilac "y" (one-of+ "xyz")) ; {:ok? true}(parse-lilac "z" (one-of+ "xyz")) ; {:ok? true}(parse-lilac "w" (one-of+ "xyz")) ; {:ok? false}(parse-lilac "xy" (one-of+ "xyz")) ; {:ok? true, :rest ("y")}反过来, 能够有排除的规定, ...

July 31, 2020 · 4 min · jiezi

关于文本处理:基于LDA主题模型聚类的商品评论文本挖掘

原文链接 http://tecdat.cn/?p=1474 Home appliance industry and consumer upgrades quietly unfolded. This change in the market so that consumer expectations of household appliances is no longer just a simple function to meet, but more details of the experience and technological innovation. ▼ ▍Key Words:品质、智能 ▍Key Words:生活品质 ▍Key Words:娱乐休闲 ▍Key Words:智能

July 26, 2020 · 1 min · jiezi

关于文本处理:基于LDA主题模型聚类的商品评论文本挖掘

原文链接 http://tecdat.cn/?p=1474 Home appliance industry and consumer upgrades quietly unfolded. This change in the market so that consumer expectations of household appliances is no longer just a simple function to meet, but more details of the experience and technological innovation. ▼ ▍Key Words:品质、智能 ▍Key Words:生活品质 ▍Key Words:娱乐休闲 ▍Key Words:智能

July 20, 2020 · 1 min · jiezi

基于融合计算蚂蚁金服的在线机器学习是如何做的

金融领域越来越多的活动场景,如双十一、双十二、财富日、新春大促,具有活动持续时间短强度高的特点,解决场景中的计算冷启动问题,优化系统效率和用户体验的需求越来越多。在生产环境的应用中,还需要满足高吞吐和端到端强数据一致性的需求,解决高维稀疏特征的大模型的训练、更新和服务问题。 在线机器学习,能够根据线上反馈数据,实时快速地进行模型调整,使得模型及时反映线上的变化,提高线上预测的准确率,能够有效的解决上述的一些问题,在金融场景也得到越来越多的应用。 基于融合计算的在线学习,通过打通流计算和机器学习两种计算模式,将不同系统间的数据传输转化为同一系统内部数据和计算之间、计算和计算之间,从而将不同的数据和计算的组织方式衔接在一起。在性能方面,通过内存间的数据共享减少数据的序列化和反序列化,大幅减少网络和计算开销,减少了60%的机器资源使用,将端到端的延迟降低到原来的十分之一。同时,基于融合计算的在线学习通过流计算和Tensorflow的自然衔接,实现了端到端的数据一致性保障,并采用一体化编程、自助云化、智能运维大大简化了系统的开发、部署、运维成本。 融合计算由蚂蚁金服自主研发,它基于蚂蚁金服联合 UC Berkeley 大学推进的新一代计算引擎Ray,通过动态数据流来实现流、批、离线数据的共享,在同一计算框架内兼容分布式服务、流处理、机器学习、图等计算模式,减少数据交换和落盘来优化计算和网络开销,是一个解决金融场景中需要衔接多个不同计算模式的开放计算框架。 通过流处理和机器学习两种计算模式的有机组合,基于融合计算的在线机器学习兼顾了各自的功能,并实现资源的优化和共享。在金融领域的其他场景也有其他类似的组合,如流式图计算。蚂蚁金服通过在线机器学习和流式图计算的探索,初步验证了融合计算框架。9月27日,融合计算的理念与具体的案例将在云栖大会数字金融技术专场上进行分享,敬请期待。 本文作者:缪克卢汉阅读原文 本文为云栖社区原创内容,未经允许不得转载。

September 19, 2019 · 1 min · jiezi

云+技术沙龙:计算机视觉的原理及最佳实践

还记得当年火爆朋友圈的军装照小应用吗?它背后的人脸融合技术,以及未来人脸融合的新趋势,你一定不能错过! 如何能够搭建一套有效稳定的图像识别系统呢? 如何通过使用腾讯云API搭建自己的图像识别应用? 腾讯人脸识别技术在交通、零售、安防等传统领域的实际应用场景和解决方案,以及教育行业文字识别技术难点与应用,人脸核身技术原理与行业应用,这些统统都有! 那么,作为一名开发者,该如何开发设计出关于AI计算机视觉方面的应用呢? 本期沙龙将从构建图像识别系统的方法切入,讲述腾讯云人脸识别、文字识别、人脸核身等技术能力原理与行业应用,给你带来一场人工智能领域的技术开拓实践之旅。搜索关注公众号“云加社区”,获取更多沙龙活动,学习最新技术干货!点击报名

April 1, 2019 · 1 min · jiezi