共计 8056 个字符,预计需要花费 21 分钟才能阅读完成。
pyltp 的简介
语言技术平台 (LTP) 经过哈工大社会计算与信息检索研究中心 11 年的持续研发和推广,是国内外最具影响力的中文处理基础平台。它提供的功能包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等。
pyltp 是 LTP 的 Python 封装,同时支持 Python2 和 Python3 版本。Python3 的安装方法为:
pip3 install pyltp
官网下载网址:https://pypi.org/project/pylt…
官方使用说明文档:https://pyltp.readthedocs.io/…
在使用该模块前,需要下载完整的模型文件,文件下载地址为:https://pan.baidu.com/share/l…。pyltp 的所有输入的分析文本和输出的结果的编码均为 UTF-8。模型的数据文件如下:
其中,cws.model 用于分词模型,lexicon.txt 为分词时添加的用户字典,ner.model 为命名实体识别模型,parser.model 为依存句法分析模型,pisrl.model 为语义角色标注模型,pos 为词性标注模型。
pyltp 的使用
pyltp 的使用示例项目结构如下:
分句
分句指的是将一段话或一片文章中的文字按句子分开,按句子形成独立的单元。示例的 Python 代码 sentenct_split.py 如下:
# -*- coding: utf-8 -*-
from pyltp import SentenceSplitter
# 分句
doc = ‘ 据韩联社 12 月 28 日反映,美国防部发言人杰夫·莫莱尔 27 日表示,美国防部长盖茨将于 2011 年 1 月 14 日访问韩国。’ \
‘ 盖茨原计划从明年 1 月 9 日至 14 日陆续访问中国和日本,目前,他决定在行程中增加对韩国的访问。莫莱尔表示,’ \
‘ 盖茨在访韩期间将会晤韩国国防部长官金宽镇,就朝鲜近日的行动交换意见,同时商讨加强韩美两军同盟关系等问题,’ \
‘ 拟定共同应对朝鲜挑衅和核计划的方案。’
sents = SentenceSplitter.split(doc) # 分句
for sent in sents:
print(sent)
输出结果如下:
据韩联社 12 月 28 日反映,美国防部发言人杰夫·莫莱尔 27 日表示,美国防部长盖茨将于 2011 年 1 月 14 日访问韩国。
盖茨原计划从明年 1 月 9 日至 14 日陆续访问中国和日本,目前,他决定在行程中增加对韩国的访问。
莫莱尔表示,盖茨在访韩期间将会晤韩国国防部长官金宽镇,就朝鲜近日的行动交换意见,同时商讨加强韩美两军同盟关系等问题,拟定共同应对朝鲜挑衅和核计划的方案。
分词
分词指的是将一句话按词语分开,按词语形成独立的单元。示例的 Python 代码 words_split.py 如下:
# -*- coding: utf-8 -*-
import os
from pyltp import Segmentor
cws_model_path = os.path.join(os.path.dirname(__file__), ‘data/cws.model’) # 分词模型路径,模型名称为 `cws.model`
lexicon_path = os.path.join(os.path.dirname(__file__), ‘data/lexicon.txt’) # 参数 lexicon 是自定义词典的文件路径
segmentor = Segmentor()
segmentor.load_with_lexicon(cws_model_path, lexicon_path)
sent = ‘ 据韩联社 12 月 28 日反映,美国防部发言人杰夫·莫莱尔 27 日表示,美国防部长盖茨将于 2011 年 1 月 14 日访问韩国。’
words = segmentor.segment(sent) # 分词
print(‘/’.join(words))
segmentor.release()
输出的结果如下:
据 / 韩联社 /12 月 /28 日 / 反映 /,/ 美 / 国防部 / 发言人 / 杰夫·莫莱尔 /27 日 / 表示 /,/ 美 / 国防部长 / 盖茨 / 将 / 于 /2011 年 / 1 月 /14 日 / 访问 / 韩国 /。
词性标注
词性标注指的是一句话分完词后,制定每个词语的词性。示例的 Python 代码 postagger.py 如下:
# -*- coding: utf-8 -*-
import os
from pyltp import Segmentor, Postagger
# 分词
cws_model_path = os.path.join(os.path.dirname(__file__), ‘data/cws.model’) # 分词模型路径,模型名称为 `cws.model`
lexicon_path = os.path.join(os.path.dirname(__file__), ‘data/lexicon.txt’) # 参数 lexicon 是自定义词典的文件路径
segmentor = Segmentor()
segmentor.load_with_lexicon(cws_model_path, lexicon_path)
sent = ‘ 据韩联社 12 月 28 日反映,美国防部发言人杰夫·莫莱尔 27 日表示,美国防部长盖茨将于 2011 年 1 月 14 日访问韩国。’
words = segmentor.segment(sent) # 分词
# 词性标注
pos_model_path = os.path.join(os.path.dirname(__file__), ‘data/pos.model’) # 词性标注模型路径,模型名称为 `pos.model`
postagger = Postagger() # 初始化实例
postagger.load(pos_model_path) # 加载模型
postags = postagger.postag(words) # 词性标注
for word, postag in zip(words, postags):
print(word, postag)
# 释放模型
segmentor.release()
postagger.release()
”’
词性标注结果说明
https://ltp.readthedocs.io/zh_CN/latest/appendix.html#id3
”’
输出结果如下:
据 p
韩联社 ni
12 月 nt
28 日 nt
反映 v
,wp
美 j
国防部 n
发言人 n
杰夫·莫莱尔 nh
27 日 nt
表示 v
,wp
美 j
国防部长 n
盖茨 nh
将 d
于 p
2011 年 nt
1 月 nt
14 日 nt
访问 v
韩国 ns
。wp
词性标注结果可参考网址:https://ltp.readthedocs.io/zh…。
命名实体识别
命名实体识别(NER)指的是识别出一句话或一段话或一片文章中的命名实体,比如人名,地名,组织机构名。示例的 Python 代码 ner.py 如下:
# -*- coding: utf-8 -*-
import os
from pyltp import Segmentor, Postagger
# 分词
cws_model_path = os.path.join(os.path.dirname(__file__), ‘data/cws.model’) # 分词模型路径,模型名称为 `cws.model`
lexicon_path = os.path.join(os.path.dirname(__file__), ‘data/lexicon.txt’) # 参数 lexicon 是自定义词典的文件路径
segmentor = Segmentor()
segmentor.load_with_lexicon(cws_model_path, lexicon_path)
sent = ‘ 据韩联社 12 月 28 日反映,美国防部发言人杰夫·莫莱尔 27 日表示,美国防部长盖茨将于 2011 年 1 月 14 日访问韩国。’
words = segmentor.segment(sent) # 分词
# 词性标注
pos_model_path = os.path.join(os.path.dirname(__file__), ‘data/pos.model’) # 词性标注模型路径,模型名称为 `pos.model`
postagger = Postagger() # 初始化实例
postagger.load(pos_model_path) # 加载模型
postags = postagger.postag(words) # 词性标注
ner_model_path = os.path.join(os.path.dirname(__file__), ‘data/ner.model’) # 命名实体识别模型路径,模型名称为 `pos.model`
from pyltp import NamedEntityRecognizer
recognizer = NamedEntityRecognizer() # 初始化实例
recognizer.load(ner_model_path) # 加载模型
# netags = recognizer.recognize(words, postags) # 命名实体识别
# 提取识别结果中的人名,地名,组织机构名
persons, places, orgs = set(), set(), set()
netags = list(recognizer.recognize(words, postags)) # 命名实体识别
print(netags)
# print(netags)
i = 0
for tag, word in zip(netags, words):
j = i
# 人名
if ‘Nh’ in tag:
if str(tag).startswith(‘S’):
persons.add(word)
elif str(tag).startswith(‘B’):
union_person = word
while netags[j] != ‘E-Nh’:
j += 1
if j < len(words):
union_person += words[j]
persons.add(union_person)
# 地名
if ‘Ns’ in tag:
if str(tag).startswith(‘S’):
places.add(word)
elif str(tag).startswith(‘B’):
union_place = word
while netags[j] != ‘E-Ns’:
j += 1
if j < len(words):
union_place += words[j]
places.add(union_place)
# 机构名
if ‘Ni’ in tag:
if str(tag).startswith(‘S’):
orgs.add(word)
elif str(tag).startswith(‘B’):
union_org = word
while netags[j] != ‘E-Ni’:
j += 1
if j < len(words):
union_org += words[j]
orgs.add(union_org)
i += 1
print(‘ 人名:’, ‘,’.join(persons))
print(‘ 地名:’, ‘,’.join(places))
print(‘ 组织机构:’, ‘,’.join(orgs))
# 释放模型
segmentor.release()
postagger.release()
recognizer.release()
输出的结果如下:
[‘O’, ‘S-Ni’, ‘O’, ‘O’, ‘O’, ‘O’, ‘B-Ni’, ‘E-Ni’, ‘O’, ‘S-Nh’, ‘O’, ‘O’, ‘O’, ‘S-Ns’, ‘O’, ‘S-Nh’, ‘O’, ‘O’, ‘O’, ‘O’, ‘O’, ‘O’, ‘S-Ns’, ‘O’]
人名:杰夫·莫莱尔,盖茨
地名:美,韩国
组织机构:韩联社,美国防部
命名实体识别结果可参考网址:https://ltp.readthedocs.io/zh…。
依存句法分析
依存语法 (Dependency Parsing, DP) 通过分析语言单位内成分之间的依存关系揭示其句法结构。直观来讲,依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的关系。示例的 Python 代码 parser.py 代码如下:
# -*- coding: utf-8 -*-
import os
from pyltp import Segmentor, Postagger, Parser
# 分词
cws_model_path = os.path.join(os.path.dirname(__file__), ‘data/cws.model’) # 分词模型路径,模型名称为 `cws.model`
lexicon_path = os.path.join(os.path.dirname(__file__), ‘data/lexicon.txt’) # 参数 lexicon 是自定义词典的文件路径
segmentor = Segmentor()
segmentor.load_with_lexicon(cws_model_path, lexicon_path)
sent = ‘ 据韩联社 12 月 28 日反映,美国防部发言人杰夫·莫莱尔 27 日表示,美国防部长盖茨将于 2011 年 1 月 14 日访问韩国。’
words = segmentor.segment(sent) # 分词
# 词性标注
pos_model_path = os.path.join(os.path.dirname(__file__), ‘data/pos.model’) # 词性标注模型路径,模型名称为 `pos.model`
postagger = Postagger() # 初始化实例
postagger.load(pos_model_path) # 加载模型
postags = postagger.postag(words) # 词性标注
# 依存句法分析
par_model_path = os.path.join(os.path.dirname(__file__), ‘data/parser.model’) # 模型路径,模型名称为 `parser.model`
parser = Parser() # 初始化实例
parser.load(par_model_path) # 加载模型
arcs = parser.parse(words, postags) # 句法分析
rely_id = [arc.head for arc in arcs] # 提取依存父节点 id
relation = [arc.relation for arc in arcs] # 提取依存关系
heads = [‘Root’ if id == 0 else words[id-1] for id in rely_id] # 匹配依存父节点词语
for i in range(len(words)):
print(relation[i] + ‘(‘ + words[i] + ‘, ‘ + heads[i] + ‘)’)
# 释放模型
segmentor.release()
postagger.release()
parser.release()
输出结果如下:
ADV(据, 表示)
SBV(韩联社, 反映)
ATT(12 月, 28 日)
ADV(28 日, 反映)
POB(反映, 据)
WP(,, 据)
ATT(美, 国防部)
ATT(国防部, 发言人)
ATT(发言人, 杰夫·莫莱尔)
SBV(杰夫·莫莱尔, 表示)
ADV(27 日, 表示)
HED(表示, Root)
WP(,, 表示)
ATT(美, 国防部长)
ATT(国防部长, 盖茨)
SBV(盖茨, 访问)
ADV(将, 访问)
ADV(于, 访问)
ATT(2011 年, 14 日)
ATT(1 月, 14 日)
POB(14 日, 于)
VOB(访问, 表示)
VOB(韩国, 访问)
WP(。, 表示)
依存句法分析结果可参考网址:https://ltp.readthedocs.io/zh…。
语义角色标注
语义角色标注是实现浅层语义分析的一种方式。在一个句子中,谓词是对主语的陈述或说明,指出“做什么”、“是什么”或“怎么样,代表了一个事件的核心,跟谓词搭配的名词称为论元。语义角色是指论元在动词所指事件中担任的角色。主要有:施事者(Agent)、受事者(Patient)、客体(Theme)、经验者(Experiencer)、受益者(Beneficiary)、工具(Instrument)、处所(Location)、目标(Goal)和来源(Source)等。示例的 Python 代码 rolelabel.py 如下:
# -*- coding: utf-8 -*-
import os
from pyltp import Segmentor, Postagger, Parser, SementicRoleLabeller
# 分词
cws_model_path = os.path.join(os.path.dirname(__file__), ‘data/cws.model’) # 分词模型路径,模型名称为 `cws.model`
lexicon_path = os.path.join(os.path.dirname(__file__), ‘data/lexicon.txt’) # 参数 lexicon 是自定义词典的文件路径
segmentor = Segmentor()
segmentor.load_with_lexicon(cws_model_path, lexicon_path)
sent = ‘ 据韩联社 12 月 28 日反映,美国防部发言人杰夫·莫莱尔 27 日表示,美国防部长盖茨将于 2011 年 1 月 14 日访问韩国。’
words = segmentor.segment(sent) # 分词
# 词性标注
pos_model_path = os.path.join(os.path.dirname(__file__), ‘data/pos.model’) # 词性标注模型路径,模型名称为 `pos.model`
postagger = Postagger() # 初始化实例
postagger.load(pos_model_path) # 加载模型
postags = postagger.postag(words) # 词性标注
# 依存句法分析
par_model_path = os.path.join(os.path.dirname(__file__), ‘data/parser.model’) # 模型路径,模型名称为 `parser.model`
parser = Parser() # 初始化实例
parser.load(par_model_path) # 加载模型
arcs = parser.parse(words, postags) # 句法分析
# 语义角色标注
srl_model_path = os.path.join(os.path.dirname(__file__), ‘data/pisrl.model’) # 语义角色标注模型目录路径
labeller = SementicRoleLabeller() # 初始化实例
labeller.load(srl_model_path) # 加载模型
roles = labeller.label(words, postags, arcs) # 语义角色标注
# 打印结果
for role in roles:
print(words[role.index], end=’ ‘)
print(role.index, “”.join([“%s:(%d,%d)” % (arg.name, arg.range.start, arg.range.end) for arg in role.arguments]))
# 释放模型
segmentor.release()
postagger.release()
parser.release()
labeller.release()
输出结果如下:
反映 4 A0:(1,1)A0:(2,3)
表示 11 MNR:(0,5)A0:(6,9)TMP:(10,10)A1:(13,22)
访问 21 A0:(13,15)ADV:(16,16)TMP:(17,20)A1:(22,22)
总结
本文介绍了中文 NLP 的一个杰出工具 pyltp,并给出了该模块的各个功能的一个示例,希望能给读者一些思考与启示。本文到此结束,感谢大家阅读~
注意:本人现已开通微信公众号:Python 爬虫与算法(微信号为:easy_web_scrape),欢迎大家关注哦~~