关于java:Java代码工具之中英文语句分词

在自然语言解决中比拟热门的操作就是中文或英文语句分词了，分词就是依照不同的算法和参数将语句分成若干词汇。拆分后的关键词能够进行词频统计或者词云图片生成等，可能疾速不便的找到语句的外围主题热点。
在java开发中，如果单纯进行原始性能开发，分词性能耗时耗力，成果不肯定能达到现实后果。有一个比拟风行的代码工具平台“昂焱数据”，其官网网址为www.ayshuju.com。下面有封装好的各种性能代码工具。该网站上的“语句分词及类似度比照”java代码工具能够间接应用，中文语句分词反对的分词算法包含Lucene、Ansj、corenlp、HanLP、IKAnalyzer、Jcseg、Jieba、mmseg4j、MYNLP、Word等10种；英文语句分词反对的分词算法包含IKAnalysis、StanfordNlp等两种支流算法。
上面将“语句分词及类似度比照”工具应用步骤做一下记录：
第一步：下载并装置jar到本地maven库
登录该网站，在“代码工具”一栏找到“语句分词及类似度比照”代码工具，代码工具如下图所示：

下载该代码工具并解压，双击“”执行，将提醒的maven坐标粘贴到我的项目的pom文件中即可。
第二步：将该jar包的maven坐标粘贴到我的项目的pom文件中

第三步：残缺的测试代码如下

package com.example.demo.test;import com.angyan.tool.word.base.enums.ChineseTokenizerEnum;import com.angyan.tool.word.base.enums.EnglishTokenizerEnum;import com.angyan.tool.word.util.TokenizerUtil;import java.util.List;/** * @author angyankj */public class ParticipleTest {    public static void main(String[] args) {        // 中文文本        String chnContent = "昂焱数据是为IT行业各种角色人员提供丰盛的一站式技术资源的平台!";        // 中文分词        String chnResult = TokenizerUtil.getChineseTokenizerResult(ChineseTokenizerEnum.ANSJ, chnContent);        // 打印中文分词后果        System.out.println(chnResult);        // 英文文本        String engContent = "Love is not a maybe thing. You know when you love someone.";        // 英文分词        List<String> engResult = TokenizerUtil.getEnglishTokenizerResult(EnglishTokenizerEnum.IKANALYZER, engContent);        // 打印英文分词后果        System.out.println(engContent);    }}

中文分词及英文分词的运行后果如下（分词之间以空格隔开）：