共计 2973 个字符,预计需要花费 8 分钟才能阅读完成。
多标准中文分词 Multi-Criteria-CWS
作者:宋彤彤
自然语言处理(NLP)是人工智能中很重要且具有挑战性的方向,而自然语言处理的第一步就是分词,分词的效果直接决定和影响后续工作的效率。我们生活和工作中每天都产生着大量的中文数据,由于中文和英文在词句方面有很大的不同,比如英文单词之间以空格作为自然分界符,而中文只是字、句和段能通过明显的分界符来简单划界,“词”和“词组”边界模糊,中文分词相对复杂和困难。所以我们来讨论一下中文分词(Chinese Word Segmentation,CWS)。
1. 中文分词现状
中文分词指的是讲一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。现有的分词方法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
- 基于字符串匹配的分词方法又叫机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大”的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。常用的字符串匹配方法有如下几种:正向最大匹配法(从左到右);逆向最大匹配法(从右到左);最小切分(每一句中切出的词数最小);双向最大匹配(进行从左到右、从右到左两次扫描)。这类算法的优点是速度快,时间复杂度可以保持在 O(n),实现简单,效果尚可;但对歧义和未登录词处理效果不佳。
- 基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
- 基于统计的分词方法是在给定大量已经分词的文本的前提下,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。例如最大概率分词方法和最大熵分词方法等。随着大规模语料库的建立,统计机器学习方法的研究和发展,基于统计的中文分词方法渐渐成为了主流方法。主要的统计模型有:N 元文法模型(N-gram),隐马尔可夫模型(Hidden Markov Model,HMM),最大熵模型(ME),条件随机场模型(Conditional Random Fields,CRF)等。在实际的应用中,基于统计的分词系统都需要使用分词词典来进行字符串匹配分词,同时使用统计方法识别一些新词,即将字符串频率统计和字符串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
2. Multi-Criteria-CWS
基于统计的分词方法建立在已有的大量已分词文本,即语料库的基础上。为了做出实用的分词工具,不光需要高效的算法,大规模语料库也必不可少。对于缺乏经费的研究团队和个人,往往只能得到 sighan2005 等屈指可数的几个小型语料库。而且这些语料库的标注规范还互不兼容,无法混合起来训练。
已经有团队开始研究如何利用多方语料库来联合学习中文分词,比如 Chen 等人 2017 年精心设计的对抗神经网络,针对每个语料库提取分词标准相关或无关的特征,但表现不理想。再就是接下来要介绍的 Han He 等人 2018 年提出的方案:受谷歌多语种翻译系统启发,利用工程思想,用标签标识不同标准的数据集,这样就可以识别出自哪个标准的数据集,通过不同语料库之间的迁移学习提升模型的性能,同时输出多标准的分词结果。
3. 实验及结果
训练用到的模型是大家熟悉的 Bi-LSTM + CRF。在具体联合训练中将引入的两个人工标识符视作普通字符,不必人工区分句子的来源。这两个人工标识符会提示 RNN 这个句子属于哪种分词标准,使其为每个字符生成的 contexual representation 都受到该分词标准的影响。
测试的时候,这两个人工标识符起到指定所需分词标准的作用,但并不计入准确率的计算。
论文在标准的 sighan2005 和 sighan2008 上做了实验,没有针对性调参的情况下依然取得了更高的成绩(当时设备条件限制,所有数据集上都用了同一套超参数)。所有分值都通过了官方评测脚本的验算。下图的 baseline 是在各个语料库上单独训练的结果,+naive 是合并预料却不加标识符的结果,+multi 是论文中联合训练方案的结果。
该试验使用的特征是极小的,仅仅是字符和 bigram。如果像最近流行的做法加入 12 个 nagram、词典特征(word embedding), 可能还会有进一步提升。但论文中心是一个简单的多标准分词方案,主打精简高效,并非追求高分胜过效率,所以没有采用这些特征工程的手段。在 sighan2008 上的实验及结果在这里不在赘述。
4. 总结
这是一种简单的多标注中文分词解决方案,可以在不增加模型复杂度的情况下联合多个语料库训练单个模型。该方案虽然简单,但的确带来了显著的性能提升(特别是对于小数据集如 WTB)。但特别大的数据集收益很小或无法受益(如 MSR),留作未来研究。这里我们提供该文章的项目地址和一些参考资料,感兴趣的同学可以进一步探索。
项目地址:https://momodel.cn/workspace/5dc9114b269cf99a59565610?type=app
**
5. 参考资料
博客:http://www.hankcs.com/nlp/segment/multi-criteria-cws.html#respond
博客:https://www.cnblogs.com/shona/p/11540353.html
博客:http://www.360doc.com/content/19/0305/12/99071_819341146.shtml
博客:https://blog.csdn.net/qq_26598445/article/details/81298456
论文:Effective Neural Solution for Multi-Criteria Word Segmentation, 2018,https://arxiv.org/abs/1712.02856
关于我们
Mo(网址:https://momodel.cn)是一个支持 Python 的 人工智能在线建模平台,能帮助你快速开发、训练并部署模型。
Mo 人工智能俱乐部 是由人工智能在线建模平台(网址:https://momodel.cn)的研发与产品团队发起、致力于降低人工智能开发与使用门槛的俱乐部。团队具备大数据处理分析、可视化与数据建模经验,已承担多领域智能项目,具备从底层到前端的全线设计开发能力。主要研究方向为大数据管理分析与人工智能技术,并以此来促进数据驱动的科学研究。
目前团队每两周(周六)在杭州举办线下沙龙,进行机器学习相关论文分享与学术交流。希望能汇聚来自各行各业对人工智能感兴趣的朋友,不断交流共同成长,推动人工智能民主化、应用普及化。