乐趣区

关于ocr:强大的OCR技术多元的用户场景-口碑型App白描的开发之路

事实中,你能够轻松无障碍的浏览各类立体印刷文字以及身边的所有,或者你未曾想过,视障人群该怎么办呢?

统计数据显示,中国大概有 1700 万的视障群体,相当于每 100 集体中就有超过 1 位是视障人士。但咱们在日常生活中却很少见到他们,那是因为视障群体在日常生活中会有诸多不便,出门对他们而言危机四伏。AI 有可能成为他们的“眼睛”吗?

成为他们的眼睛:白描 App 与视障群体的故事

如果手机上只能有一款 App,你会抉择哪一款?视障人士安之动摇地给出了答案——白描。因为白描 App 让视力不佳的他用另一种形式“看”清世界,文字不再遥不可及。他用白描“看”过柔美的诗篇,“听”过动人的乐章,甚至在单独上楼看不清所在楼层时,白描也精确地将答案通知了他,将他从困境中解救出来。一个 App 让已经望“字”兴叹的他更加怯懦的走出家门,参加丰富多彩的生存。

“白描是我的眼。”同为视障人士的小杰从不悭吝对白描的夸赞,甚至婉言白描是视障搭档赖以生存的工具。白描帮忙他解决了生存的难题,从各类电器、数码产品、药品说明书到各种洗漱用品包装都能够辨认,他还能够给可恶的小侄女讲绘本故事。如果没有白描,这种事件是他难以想象的。

白描是如何做到被视障群体视若瑰宝的呢?白描 App 是一款简洁高效的 OCR 文字辨认软件,不仅简略好用,而且设计好看,能够轻松实现“拍照 - 辨认文字 - 朗诵后果”一系列流程。同时,白描适配了手机无障碍辅助性能,视障者能够在手机上十分轻松地操作。

“白描”这个词本意是一种文学写作手法,鲁迅学生曾把这种手法概括成十二个字,即“有真意,去掩饰,少做作,勿卖弄”。白描 App 的开发者陶新乐正是这样的一个人,他察看到了不同人群的理论需要,用虚拟世界的代码满足了事实世界有需要的人,让他们的生存变得更加美妙、便捷。

白描 App 开发者的心路历程:切入不同场景、优化产品细节

你或者很难设想,作为一名集体开发者的陶新乐,他最早开发白描 App 是为了女朋友。陶新乐的女友酷爱浏览,常常做读书笔记。为了加重抄录压力,她尝试应用了过后市面上的各类文字辨认软件,但她发现:有的软件操作流程繁琐,有的费用昂扬,有的则辨认不精确……看到女朋友苦楚不已,陶新乐当下决定亲自做个体验好、成果佳的 OCR 文字辨认工具给女朋友应用,并且很快付诸了口头。这或者就是开发者独有的浪漫。

然而,一款 App 的开发过程是充斥未知与挑战的。在过后的条件下,开发一款具备 OCR 性能的软件,面临的一个微小挑战是:如何让文字辨认的又快又准。因而,他调研了市面上提供此服务的厂商,并对不同厂商的产品进行了比照,尝试辨认不同场景的图片,找出辨认成果最好的那个。于是他发现,百度大脑 AI 开放平台的 OCR 技术能力和应用体验都是最好的,尤其是辨认准确度更当先于其余厂商,所以在 2017 年他就毫不犹豫的抉择了百度 OCR 技术,并始终应用至今。

然而优良的底层技术并不意味着全副,百度大脑 OCR 已提供近 60 项技术能力,好的技术也须要利用于匹配的场景能力施展更大的价值。

于是,陶新乐首先对白描的应用场景做了细分钻研,比方:学生上课拍 PPT 提取文字记笔记、企业员工把纸质合同扫描成电子版并且制作 PDF、把纸质表格转成 Excel 电子版、翻译图片上的文字、老师拍摄并辨认试题后对试题再加工、律师用来提取纸质文书上的文字等等。特地的是,视障人群非凡的应用需要,他都有关注和调研。

思考完用户的应用场景之后,再者就是对产品的一直打磨。过后,图片转文字经常会有辨认谬误的状况产生,为了补救这一问题,在辨认之前,白描 APP 会进行一些技术上的解决,比方图像压缩如何保障清晰度又尽量减小图片大小;如何在进行长图主动裁剪时,检测到长图的空行地位主动裁剪,且不会裁到文字;如何针对文章进行主动分段,更便于读者浏览等等。这些精细化的产品设计保障了图片的清晰度,让文字信息更易于被辨认。而在辨认之后,白描的校对性能,能够让辨认后果与原图显示在同一界面上,不便用户疾速找到须要批改的中央,在此基础上进行编辑。

依靠百度优良的深度学习算法和基于海量优质数据的预训练模型,以及白描 App 的图像预处理能力,最终实现了关键字段辨认准确率 99%+。看到女友应用白描时绽开的笑颜,陶新乐感觉一切都是值得的,他也心愿更多人可能享受到这份高兴。

胜利的背地:用“匠人”之心雕刻产品之光

程序员出身的陶新乐在做产品这件事上始终怀揣一颗“匠人”之心。陶新乐提到,AI 在落地的过程中会遇到很多的艰难,很多时候都是一边踩坑一边向前走。当遇到无奈解决的问题时,就须要一直学习,攻坚克难。

百度大脑 OCR 技术与有数像陶新乐一样的开发者并肩同行。作为最早规模化利用的 AI 技术之一,OCR 技术的产业级利用继续获得冲破。百度大脑 OCR 技术可提供多场景、多语种、高精度的文字检测与辨认服务,多项 ICDAR 指标居世界第一,已宽泛实用于近程身份认证、财税报销、文档电子化等场景,为企业降本增效,为用户带来更智能化的利用体验。

当然,AI 技术的利用落地,除了须要有百度大脑这样提供当先 AI 技术能力的平台外,还须要更多像陶新乐这样的开发者们,施展设想将 AI 利用在更多实在场景中,满足不同用户群体,甚至是容易被忽视的残障人群的需要,让社会更有“AI”。同时,为了升高独立开发者和企业自主训练 OCR 文字辨认模型的门槛,百度大脑推出业界首个 EasyDL OCR 自训练平台,提供零门槛、定制化、低成本的一站式 OCR 模型训练服务。保障高准确率的同时,满足多元化的场景需要,并无效保障数据安全。

在这个科技为公众生存赋能的时代,产品的设计更是一种普惠理念的输入。已领有超过 800 万用户的白描 App,曾经成为业界的口碑产品。置信,将来还将有越来越多的开发者通过百度大脑 AI 开放平台提供的 AI 技术与服务,发明出更多与场景相结合的智能利用,让更多人生存更便捷、更美妙。

即刻收费体验百度 OCR 文字辨认能力:https://ai.baidu.com/tech/ocr

退出移动版