1小时玩转OCR实战

在日常生活工作中，我们难免会遇到一些问题，比如自己辛辛苦苦写完的资料，好不容易打印出来却发现源文件丢了。难的收集了一些名片，却要很麻烦的一个一个录入信息。快递公司的业务越来越好，但每天却需要花费很多时间登记录入运单，效率非常的低。

那么，有没有什么技术能帮助我们解决这些难题呢？有的，那就是OCR文字识别技术。

什么是OCR？

OCR 是实时高效的定位与识别图片中的所有文字信息，返回文字框位置与文字内容。支持多场景、任意版面下整图文字的识别，以及中英文、字母、数字的识别。通俗的来说，就是将图片上的文字内容，智能识别成为可编辑的文本，例如：

OCR的技术原理是什么？

OCR本质是图像识别。其原理也和其他的图像识别问题基本一样。包含两大关键技术：文本检测和文字识别。先将图像中的特征的提取并检测目标区域，之后对目标区域的的字符进行分割和分类。

以深度学习兴起的时间为分割点，直至近五年之前，业界最为广泛使用的仍然是传统的OCR识别技术框架，而随着深度学习的崛起，基于这一技术的OCR识别框架以另外一种新的思路迅速突破了原有的技术瓶颈（如文字定位、二值化和文字分割等），并已在工业界得到广泛应用。

首先文本定位，接着进行倾斜文本矫正，之后分割出单字后，并对单字识别，最后基于统计模型（如隐马尔科夫链，HMM）进行语义纠错。

OCR技术的难点是什么？

复杂背景、艺术字体、低分辨率、非均匀光照、图像退化、字符形变、多语言混合、文本行复杂版式、检测框字符残缺，等等。

如何克服这些难点的？

从几个方面入手。一是使用场景，另一方面是从技术上的改进腾讯优图实验室在文本检测技术方进行了深度优化，提出了Compact Inception，通过设计合理的网络结构来提升各尺度的文字检测／提取能力。同时引入RNN多层自适应网络和Refinement结构来提升检测完整性和准确性。

腾讯云OCR目前支持什么功能？

基于腾讯优图实验室世界领先的深度学习技术，目前我们已支持：身份证识别，银行卡识别，名片识别，营业执照识别，行驶证驾驶证识别，车牌号识别，通用印刷体识别，手写体识别。

通用印刷体的技术难点，使用场景

大家都知道身份证识别可广泛应用在金融行业中，有用户的身份认证中，可以减少用户的信息输入，提升效率，提高用户体验，营业执照的识别完全省去了手工录入的繁琐，还可以为企业省去大量的人力资源成本，这些场景大家都已经比较熟悉。

对于通用印刷体，腾讯优图实验室自主设计一整套全方位多尺度文字识别引擎，可攻破模糊，散焦，透视，文字部分遮挡的问题，识别准确率高达90%以上，处于业界领先水平。使用场景广泛，例如对任意版面上图像的文字识别，可广泛应用在印刷文档、广告图、医疗、物流等行业中的识别。

对于通用印刷体有没有什么好的例子？

例如这个广告，内容多字体，中英文与数字混合，背景也比较随意。咱们的OCR通过透视矫正、去模糊等，能大幅还原图像真实度，极大提升算法的鲁棒性。

再例如识别文字密集，行间距小，透视畸变等的海报。人工识别需要不仅耗费时间，肉眼也比较难识别。但腾讯云OCR 设计了小而精的特征提取网络，配合先进的预处理技术，识别准确率高达93%以上。

有时候也会遇到识别率不理想的情况，如何可以提高识别准确率？

首先会确认下当前的场景，造成准确度不高的原因。评估可提高的空间设计，之后做出相应的修改，列入预处理等等。

关于腾讯云手写体识别方面的案例

腾讯是国内首家将手写体识别应用在复杂场景下的服务商，数字识别准确率高达90%以上，单字识别速度在15ms以内，复杂汉字准确率超过80%。

腾讯云手写体OCR已运用到的运单识别场景，解决了物流行业每日快递单人工输入工作量极大且极易出错，非常低效等问题。

运单识别与传统人工识别的区别

如果传统人工识别按照3min/单，1000单需要6.25个人/天，保证运单时效则需要耗费大量人力，考虑人力成本则影响运单及时性，成本和服务难两全。

我们的运单识别速度可以达到毫秒级/单，并支持24小时识别服务，业务增长时只需要投入计算用服务器资源即可，弹性较大。

与传统识别相比，不仅成本可以降低，提高准确性，还可以保护用户的隐私泄露风险。

腾讯云OCR在行业中落地案例

新版手Q就用到了咱们的技术，在扫一扫、聊天窗口和空间图片大图预览共三个入口上支持了提取图片中文字的功能。

方便用户阅读、编辑、保存图片上的文字，从而可以对提取出的文字进行翻译、搜索。在多种场景下可以极大提升用户对图片上文字的阅读和记录效率。

企业微信中的名片识也用到了咱们OCR技术。用户只需拍照或选择名片图片，就能准确快速地识别出名片中的文字，并自动提取为对应的字段，极大简化了名片录入流程，也避免了手动录入过程可能出现的错误。

福利时间：

腾讯云大学6月10日（周一）晚19：00-20：30邀请到大数据与人工智能产品中心大咖，开设免费线上直播课程，现场讲解API落地使用！讲师将会在直播课程中为大家解答疑惑。

适合人群：

0-3岁开发者
OCR与人脸核身使用者
人脸识别从业者
对人脸识别感兴趣的小伙伴

非开发者0基础不要紧，现场手把手教学，一小时你能收获的不止有实战指导，更有鹅厂大咖的经验分享！

大咖讲师：
腾讯云AI视觉产品项目经理张诚

课程内容：
1、腾讯云OCR文字识别产品简介
2、 OCR通用印刷体识别动手实验室
3、腾讯云慧眼·人脸核身产品简介
4、人脸核身H5动手实验室

如何观看课程？
扫描下方海报二维码即可预约课程，开播前15分钟将短信通知！

重要提示：提前关注微信【学习君】，入群还可以领取更多鹅厂内部技术资料

福利时间：

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

1小时玩转OCR实战

福利时间：

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复