乐趣区

关于人工智能:阿里云峰会-AI搜题加速在线教育行业场景创新

简介:过来的 2020 年的让所有人难忘的一年,受新冠疫情的影响,各行各业都在挑战中变动,在教育方面也催生了新的商业格局。在线教育平台倒退迅猛,阿里云也踊跃相应,为在线教育的泛滥客户提供了高效稳固的技术保障。本文介绍了阿里云凋谢搜寻为在线教育掠夺流量的重要工具 - 拍照搜寻的技术原理。

分享人:徐光伟(昆卡) 阿里巴巴达摩院算法专家

理解更多解决方案详情:https://www.aliyun.com/page-source/data-intelligence/activity/edusearch

搜寻是在线教育企业流量获取的利器

截至 2020 年 12 月份教育行业月活 TOP10 的统计,其中具备搜题能力的软件多达 5 个,拍照搜题作为产品能力,能够帮忙客户获取大量用户以及流量,从而为其余产品提供变现能力,正是因为这样定位,拍照搜题整体准确性和搜寻效率都成为至关重要的一点,所以凋谢搜寻对此做了很多订制优化。

教育搜题业务特点

对于教育搜题业务场景演绎了三大特点:

第一点海量题库,教育题库都是属于千万级别甚至到亿级别,而且一直的持续增长;同时搜题业务存在很显著的顶峰景象,例如早晨七八点,节假日最初一天,这时搜题会存在十分高的 QPS 的波峰;搜寻提早会重大影响用户的体验。

第二点场景丰盛,拍照搜题涵盖的场景越来越丰盛,包含不同的年龄段,例如低年级搜题次要围绕拍照看图识字或连线题,须要更多的图片信息的题目;还包含不同的学科,目前反对的学科多达十多种,因而丰盛的场景就会对搜寻成果带来更大的挑战。

第三点算法需要,拍照搜题产品状态个别只会展示 TOP3 或者 TOP5 的后果,正是因为这样设定,准确性对于拍照搜题来说至关重要,同时拍照搜题还会波及到多模态和多语言解决能力,解决图文搜寻和多语言解决的需要。

凋谢搜寻教育搜题计划架构

阿里云凋谢搜寻的拍照搜题解决方案,当用户通过拍照通过 OCR 辨认之后的文本,通过凋谢搜索引擎解决后会返回 TOP3- 5 的后果给用户失去展现,并且针对企业题库数据严格保证数据的平安和隐衷。

教育搜题算法能力

查问剖析算法优化残缺的解决流程

教育行业分词和学科类目预测

分词在拍照搜题场景下存在两大难点,第一点英文题目 OCR 辨认之后空格缺失 ,右边第一个图能够看到,即使针对很长没有空格的英文文本,模型也是能够十分精确的做正确的切分。第 二个难点是数学题目公式示意之后的切分,右边第二个图能够看到数学符号局部都做出正确的切分。

类目预测在拍照搜题场景下对应的就是 学科的预测和题型的预测,咱们联合图片以及 OCR 辨认之后的文本信息做多模态预测,从而进步搜题准确率。

多路召回排序技术

因为拍照搜题业务场景的特殊性,凋谢搜寻还引入了多路召回排序技术。

为什么要做多路召回呢?

教育拍照搜题相比传统的网页或者电商的搜寻存在显著的差别,第一点是搜寻的 Query 特地长,第二点是搜寻的 Query 由拍照 OCR 辨认之后失去的文本,其中要害 TERM 辨认谬误的话,就会重大影响召回排序。

传统的纯文本查问计划包含两种,第一种是 OR 逻辑查问,第二种 AND 逻辑查问,AND 逻辑查问上基于咱们方才说到的针对教育领域优化定制的 Query 模块剖析之后大幅提高成果,当初能够做到准确性靠近 OR 逻辑。

如何兼顾搜寻计算开销以及搜寻的准确率呢?

引入了文本的向量召回,对文本向量召回技术优化了三点,

第一点是其中的 BERT 模型咱们采纳达摩院自研的 StructBERT,并针对于教育行业做了定制,同时对 BERT 模型做压缩减速。

第二点是向量检索引擎采纳达摩院自研的 Proxma 引擎,准确性和速度都超过开源零碎。

第三点训练数据能够基于客户的搜寻日志一直积攒,成果继续晋升。

从左边的图能够看到,最终咱们在基于两侧的 BERT 模型就能够达到十分好的成果,准确性超过 OR 逻辑 3%—5%,整体召回 DOC 数量缩小 40 倍,Latecy 升高 10 倍以上。

搜题成果展现

举例两个具体搜题的 case,右边这个 case 能够看到其中因为问题中的文字描述和题库中文字描述不统一,传统搜索引擎返回的后果相关性极差,通过咱们引入语意向量召回之后左边 TOP3 后果完全符合题意。第二个 case 因为这个题目中蕴含图片的信息,传统的搜索引擎无奈做到精确的召回,基于咱们多路召回引入图象信息之后 TOP1 返回完全一致的题目。

凋谢搜寻解决方案劣势

案例一:某 K12 的教育用户,用户数达到千万级别,题库量在八千万左右而且在继续减少,客户接入凋谢搜寻之后返回搜题准确率晋升 45%,提早降到 50% 毫秒。

案例二:某高职教育客户,产品 DAU 三百万,月活一千万,客户接入之后反馈比照他们原先自建的零碎,在顶峰时候耗时大于两秒,当初凋谢搜寻能够稳固在 50 毫秒,同比降落 40 倍。TOP5 题目搜寻准确率晋升 2.4% 搜寻后果从原来 40% 降到不到 1%,业务高峰期能够实现秒级平滑扩容。

取得专家领导:

https://survey.aliyun.com/apps/zhiliao/6R4u6vilI

版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

退出移动版