关于数据库:一款在线错别字校对工具的研发之路

工具名称

爱校对文本纠错工具

错别字能够一键校对，反对自定义词库（正词、错词、敏感词），应用灵便便捷

AI 在事实中的利用有很多，你有没有想过，它还能够进行文本纠错呢？传统的校对既耗时又干燥，通过 AI 纠错，不仅能更快实现，还能进步准确度。那么 AI“文本纠错”背地的原理是什么呢？一起看看吧！

一、背景

尽管这几年短视频在内容流传方面倒退得很火，然而文稿依然占据重要位置。而文稿流传最重要的一点就是信息的准确性，尤其是一些有知名度的正式平台更是会在文稿发送前进行校对修改。

传统的人工校对工作量是十分大的，一篇 50000 字的文稿实现校对差不多须要 1 - 2 个小时，对于校稿人员来说既耗时又干燥。

二、关键技术

文本校对中用到的技术的前世今生在这不过多介绍了，目前文本校对的支流方向还是应用机器学习的形式来实现，其中须要用到的核心技术次要包含语言常识学习、上下文了解和常识计算。

语言常识学习：能够了解为是对语言规定等先验常识的学习，通过学习词法、句法等规定进行语言模型构建，例如中英文的主谓宾构造就是不一样的。

上下文了解：是指剖析谬误点上下文语境和语义，从纠错候选中抉择最合适的。尤其是中文，雷同的词汇在不同语境中往往表白不同的含意。

常识计算：常识计算次要包含关联常识计算和文本了解，关联常识次要是通过对全局知识的统计来实现纠错，能够是部分不残缺语句的补充。文本了解是通过统计了解全局句子内容，解决低频畛域常识的泛化问题。

三、产品设计

利用场景
（1）用户场景：审稿或者编辑人员输出中文文字信息，零碎主动纠错，并给出批改倡议，审稿人员对谬误疾速订正。

（2）利用边界：

反对用词谬误检测，针对音近、形近的错字和别字进行纠正

反对句子级谬误检测，次要是针对句子中呈现的多字、少字等谬误，绝对难度校大。

反对场景类谬误纠正，这类谬误须要具备一些特定畛域的常识能力辨认纠错，所以尽量反对。

产品定位
产品定位：为利用工具型产品，实现中文文本主动纠错性能。

用户定位：满足两类 B 端用户，第一类针对具备自主的文稿编辑工具，提供 API 服务，与现有零碎进行革新交融；第二类是针对短少文稿编辑工具的用户，提供 web 页面性能。

产品业务流程
产品外围业务流程次要是产品端和算法端的交互，具体业务流程如下：

产品功能设计
（1）页面功能设计

页面外围性能次要包含如下：反对内容上传、内容审查、后果确认和内容下载。

（2）API 接口设计

包含内容纠错申请接口和后果回调接口，别离用于内容审查纠错和后果返回，以下形容次要的输出和输入：

输出：接口鉴权、文本内容、文本编码格局等。

输入：文本剖析后果，包含源文本、纠错文本、文本地位，置信度。

评估指标
产品上线前，须要对产品的性能进行评估，次要包含三个指标：误报率、召回率和解决工夫。

误报率：代表正确的句子被改错的比率，等于正确句子被纠错的个数 / 正确句子的个数。

召回率：代表谬误的句子被全副纠正的比率，等于含有谬误的句子被改过的数量 / 所有含谬误的句子数量。

解决性能：代表解决多少个字符的耗时，单位是千字耗时，s/ 千字符。

四、论断

文本校对是 NLP 十分根底的场景利用，然而理论业务价值却是很大的。在具体业务场景利用方面不仅能够用在媒体公文写作、图书出版等输出文本纠错，还能够利用于语音搜寻、客服问答等业务。