共计 1660 个字符,预计需要花费 5 分钟才能阅读完成。
nlp 技术包含根底技术和利用技术
70 年代当前随着互联网的高速倒退,语料库越来越丰盛以及硬件更新欠缺,自然语言解决思潮由理性主义向经验主义过渡,基于统计的办法逐步代替了基于规定的办法。
从 2008 年到当初,因为深度学习在图像识别、语音辨认等畛域一直获得冲破,人们也逐步开始引入深度学习来做自然语言解决钻研,由最后的词向量到 2013 年 word2vec,将深度学习与自然语言解决的联合推向了低潮,并且在机器翻译、问答零碎、浏览了解等畛域获得了肯定胜利。再到最近的 emlo、bert 等,兴许正在揭开下一个篇章。
能够说,自然语言解决就是要计算机了解自然语言,自然语言解决机制波及两个流程,包含自然语言了解和自然语言生成。自然语言了解是指计算机可能了解自然语言文本的意义,自然语言生成则是指能以自然语言文原本表白给定的用意
自然语言的了解和剖析是一个层次化的过程,许多语言学家把这一过程分为五个档次,能够更好地体现语言自身的形成,五个档次别离是语音剖析、词法剖析、句法分析、语义剖析和语用分析。
语音剖析是要依据音位规定,从语音流中辨别出一个个独立的音素,再依据音位状态规定找出音节及其对应的词素或词。
词法剖析是找出词汇的各个词素,从中取得语言学的信息。
句法分析是对句子和短语的构造进行剖析,目标是要找出词、短语等的互相关系以及各自在句中的作用。
语义剖析是指使用各种机器学习办法,学习与了解一段文本所示意的语义内容。语义剖析是一个十分广的概念。
语用分析是钻研语言所存在的外界环境对语言使用者所产生的影响
词法剖析(lexical analysis)
词法剖析包含汉语分词(word segmentation 或 tokenization)和词性标注(part-of-speech tag)等。
汉语分词:解决汉语 (英文自带分词) 首要工作就是要将输出的字串切分为独自的词语,这一步骤称为分词。
词性标注:词性标注的目标是为每一个词赋予一个类别,这个类别称为词性标记。比方,名词(noun)、动词(verb)等
另一方面是自然语言解决的利用技术,这些工作往往会依赖根底技术,包含文本聚类 (Text Clustering)、文本分类(Text Classification)、文本摘要(Text abstract)、情感剖析(sentiment analysis)、主动问答(Question Answering,QA)、机器翻译(machine translation,MT)、信息抽取(Information Extraction)、信息举荐(Information Recommendation)、信息检索(Information Retrieval,IR) 等。
文本分类:文本分类工作是依据给定文档的内容或主题,主动调配事后定义的类别标签。包含单标签分类和多标签文本分类,。
文本聚类:工作则是依据文档之间的内容或主题类似度,将文档汇合划分成若干个子集,每个子集外部的文档类似度较高,而子集之间的类似度较低。
文本摘要:文本摘要工作是指通过对原文本进行压缩、提炼,为用户提供简明扼要的文字描述。
情感剖析:情感剖析工作是指利用计算机实现对文本数据的观点、情感、态度、情绪等的剖析开掘。
主动问答:主动问答是指利用计算机主动答复用户所提出的问题以满足用户常识需要的工作。
机器翻译:机器翻译是指利用计算机实现从一种自然语言到另外一种自然语言的主动翻译。被翻译的语言称为源语言(source language),翻译到的语言称作目标语言(target language)。
信息抽取:信息抽取是指从非结构化 / 半结构化文本(如网页、新闻、论文文献、微博等)中提取指定类型的信息(如实体、属性、关系、事件、商品记录等),并通过信息归并、冗余打消和冲突消解等伎俩将非结构化文本转换为结构化信息的一项综合技术。
信息举荐:信息举荐据用户的习惯、偏好或趣味,从一直到来的大规模信息中辨认满足用户趣味的信息的过程。
信息检索:信息检索是指将信息按肯定的形式加以组织,并通过信息查找满足用户的信息需要的过程和技术。