关于数据库:一款在线错别字校对工具的研发之路

70次阅读

共计 1331 个字符,预计需要花费 4 分钟才能阅读完成。

工具名称

爱校对文本纠错工具

错别字能够一键校对,反对自定义词库(正词、错词、敏感词),应用灵便便捷

AI 在事实中的利用有很多,你有没有想过,它还能够进行文本纠错呢?传统的校对既耗时又干燥,通过 AI 纠错,不仅能更快实现,还能进步准确度。那么 AI“文本纠错”背地的原理是什么呢?一起看看吧!

一、背景

尽管这几年短视频在内容流传方面倒退得很火,然而文稿依然占据重要位置。而文稿流传最重要的一点就是信息的准确性,尤其是一些有知名度的正式平台更是会在文稿发送前进行校对修改。

传统的人工校对工作量是十分大的,一篇 50000 字的文稿实现校对差不多须要 1 - 2 个小时,对于校稿人员来说既耗时又干燥。

二、关键技术

文本校对中用到的技术的前世今生在这不过多介绍了,目前文本校对的支流方向还是应用机器学习的形式来实现,其中须要用到的核心技术次要包含语言常识学习、上下文了解和常识计算。

语言常识学习:能够了解为是对语言规定等先验常识的学习,通过学习词法、句法等规定进行语言模型构建,例如中英文的主谓宾构造就是不一样的。

上下文了解:是指剖析谬误点上下文语境和语义,从纠错候选中抉择最合适的。尤其是中文,雷同的词汇在不同语境中往往表白不同的含意。

常识计算:常识计算次要包含关联常识计算和文本了解,关联常识次要是通过对全局知识的统计来实现纠错,能够是部分不残缺语句的补充。文本了解是通过统计了解全局句子内容,解决低频畛域常识的泛化问题。

三、产品设计

利用场景
(1)用户场景:审稿或者编辑人员输出中文文字信息,零碎主动纠错,并给出批改倡议,审稿人员对谬误疾速订正。

(2)利用边界:

反对用词谬误检测,针对音近、形近的错字和别字进行纠正

反对句子级谬误检测,次要是针对句子中呈现的多字、少字等谬误,绝对难度校大。

反对场景类谬误纠正,这类谬误须要具备一些特定畛域的常识能力辨认纠错,所以尽量反对。

产品定位
产品定位:为利用工具型产品,实现中文文本主动纠错性能。

用户定位:满足两类 B 端用户,第一类针对具备自主的文稿编辑工具,提供 API 服务,与现有零碎进行革新交融;第二类是针对短少文稿编辑工具的用户,提供 web 页面性能。

产品业务流程
产品外围业务流程次要是产品端和算法端的交互,具体业务流程如下:

产品功能设计
(1)页面功能设计

页面外围性能次要包含如下:反对内容上传、内容审查、后果确认和内容下载。

(2)API 接口设计

包含内容纠错申请接口和后果回调接口,别离用于内容审查纠错和后果返回,以下形容次要的输出和输入:

输出:接口鉴权、文本内容、文本编码格局等。

输入:文本剖析后果,包含源文本、纠错文本、文本地位,置信度。

评估指标
产品上线前,须要对产品的性能进行评估,次要包含三个指标:误报率、召回率和解决工夫。

误报率:代表正确的句子被改错的比率,等于正确句子被纠错的个数 / 正确句子的个数。

召回率:代表谬误的句子被全副纠正的比率,等于含有谬误的句子被改过的数量 / 所有含谬误的句子数量。

解决性能:代表解决多少个字符的耗时,单位是千字耗时,s/ 千字符。

四、论断

文本校对是 NLP 十分根底的场景利用,然而理论业务价值却是很大的。在具体业务场景利用方面不仅能够用在媒体公文写作、图书出版等输出文本纠错,还能够利用于语音搜寻、客服问答等业务。

正文完
 0