基于常识图谱的《红楼梦》人物关系可视化及问答零碎(含码源):命名实体辨认、关系辨认、LTP 简略教学
文件树:
1) app.py 是整个零碎的主入口
2) templates 文件夹是 HTML 的页面
|-index.html 欢送界面 <br>
|-search.html 搜寻人物关系页面 <br>
|-all_relation.html 所有人物关系页面 <br>
|-KGQA.html 人物关系问答页面 <br>
3) static 文件夹寄存 css 和 js,是页面的款式和成果的文件
4) raw_data 文件夹是存在数据处理后的三元组文件
5) neo_db 文件夹是常识图谱构建模块
|-config.py 配置参数 <br>
|-create_graph.py 创立常识图谱,图数据库的建设 <br>
|-query_graph.py 常识图谱的查问 <br>
6) KGQA 文件夹是问答零碎模块
|-ltp.py 分词、词性标注、命名实体辨认 <br>
7) spider 文件夹是爬虫模块
|- get_*.py 是之前爬取人物材料的代码,曾经产生好 images 和 json 能够不必再执行 <br>
|-show_profile.py 是调用人物材料和图谱展现在前端的代码
部署步骤:
- 0. 装置所需的库 执行 pip install -r requirement.txt
- 1. 先下载好 neo4j 图数据库,并配好环境(留神 neo4j 须要 jdk8)。批改 neo_db 目录下的配置文件 config.py, 设置图数据库的账号和明码。
- 2. 切换到 neo_db 目录下,执行 python create_graph.py 建设常识图谱
- 3. 去 这里 下载好 ltp 模型。ltp 简介
- 4. 在 KGQA 目录下,批改 ltp.py 里的 ltp 模型文件的寄存目录
- 5. 运行 python app.py, 浏览器关上 localhost:5000 即可查看
1. 零碎整体流程图:
我的项目码源见文章顶部或文末
我的项目码源点击跳转
2. 主界面 - 基于常识图谱的《红楼梦》人物关系可视化及问答零碎
网站示例:
欢送界面
3.KGQA 局部码源展现
#-*- coding: utf-8 -*-
import pyltp
import os
LTP_DATA_DIR = '/Users/chizhu/data/ltp_data_v3.4.0' # ltp 模型目录的门路
def cut_words(words):
segmentor = pyltp.Segmentor()
seg_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')
segmentor.load(seg_model_path)
words = segmentor.segment(words)
array_str="|".join(words)
array=array_str.split("|")
segmentor.release()
return array
def words_mark(array):
# 词性标注模型门路,模型名称为 `pos.model`
pos_model_path = os.path.join(LTP_DATA_DIR, 'pos.model')
postagger = pyltp.Postagger() # 初始化实例
postagger.load(pos_model_path) # 加载模型
postags = postagger.postag(array) # 词性标注
pos_str=' '.join(postags)
pos_array=pos_str.split(" ")
postagger.release() # 开释模型
return pos_array
def get_target_array(words):
target_pos=['nh','n']
target_array=[]
seg_array=cut_words(words)
pos_array = words_mark(seg_array)
for i in range(len(pos_array)):
if pos_array[i] in target_pos:
target_array.append(seg_array[i])
target_array.append(seg_array[1])
return target_array
4.LTP 简略教学
pyltp 是 LTP 的 Python 封装,提供了分词,词性标注,命名实体辨认,依存句法分析,语义角色标注的性能。
对于各个模块工作的介绍、标注体系、性能指标,能够查阅 这里 的介绍。
pyltp 的所有输出的剖析文本和输入的后果的编码均为 UTF-8。
如果您以非 UTF-8 编码的文本输出进行剖析,后果可能为空。请留神源代码文件的默认编码。
因为 Windows 终端采纳 GBK 编码显示,间接输入 pyltp 的剖析后果会在终端显示为乱码。您能够将规范输入重定向到文件,以 UTF8 形式查看文件,就能够解决显示乱码的问题。
4.1 分句
应用 pyltp 进行分句示例如下
#-*- coding: utf-8 -*-
from pyltp import SentenceSplitter
sents = SentenceSplitter.split('元芳你怎么看?我就趴窗口上看呗!') # 分句
print '\n'.join(sents)
后果如下
4.2 分词
#-*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/path/to/your/ltp_data' # ltp 模型目录的门路
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model') # 分词模型门路,模型名称为 `cws.model`
from pyltp import Segmentor
segmentor = Segmentor() # 初始化实例
segmentor.load(cws_model_path) # 加载模型
words = segmentor.segment('元芳你怎么看') # 分词
print '\t'.join(words)
segmentor.release() # 开释模型
后果如下
words = segmentor.segment('元芳你怎么看')
的返回值类型是 native 的 VectorOfString 类型,能够应用 list 转换成 Python 的列表类型,例如
...
>>> words = segmentor.segment('元芳你怎么看')
>>> type(words)
<class 'pyltp.VectorOfString'>
>>> words_list = list(words)
>>> type(words_list)
<type 'list'>
>>> print words_list
['\xe5\xae\xa2\xe6\x9c\x8d', '\xe5\xa4\xaa', '\xe7\xb3\x9f\xe7\xb3\x95', '\xe4\xba\x86']
4.2.1 应用分词内部词典
pyltp 分词反对用户应用自定义词典。分词内部词典自身是一个文本文件(plain text),每行指定一个词,编码同样须为 UTF-8,样例如下所示
示例如下
#-*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/path/to/your/ltp_data' # ltp 模型目录的门路
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model') # 分词模型门路,模型名称为 `cws.model`
from pyltp import Segmentor
segmentor = Segmentor() # 初始化实例
segmentor.load_with_lexicon(cws_model_path, '/path/to/your/lexicon') # 加载模型,第二个参数是您的内部词典文件门路
words = segmentor.segment('亚硝酸盐是一种化学物质')
print '\t'.join(words)
segmentor.release()
4.2.2 应用个性化分词模型
个性化分词是 LTP 的特色性能。个性化分词为了解决测试数据切换到如小说、财经等不同于新闻畛域的畛域。在切换到新畛域时,用户只须要标注大量数据。个性化分词会在原有新闻数据根底之上进行增量训练。从而达到即利用新闻畛域的丰盛数据,又兼顾指标畛域特殊性的目标。
pyltp 反对应用用户训练好的个性化模型。对于个性化模型的训练需应用 LTP,具体介绍和训练方法请参考 个性化分词。
在 pyltp 中应用个性化分词模型的示例如下
#*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/path/to/your/ltp_data' # ltp 模型目录的门路
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model') # 分词模型门路,模型名称为 `cws.model`
from pyltp import CustomizedSegmentor
customized_segmentor = CustomizedSegmentor() # 初始化实例
customized_segmentor.load(cws_model_path, '/path/to/your/customized_model') # 加载模型,第二个参数是您的增量模型门路
words = customized_segmentor.segment('亚硝酸盐是一种化学物质')
print '\t'.join(words)
customized_segmentor.release()
同样,应用个性化分词模型的同时也能够应用内部词典
#-*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/path/to/your/ltp_data' # ltp 模型目录的门路
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model') # 分词模型门路,模型名称为 `cws.model`
from pyltp import CustomizedSegmentor
customized_segmentor = CustomizedSegmentor() # 初始化实例
customized_segmentor.load_with_lexicon(cws_model_path, '/path/to/your/customized_model', '/path/to/your/lexicon') # 加载模型
words = customized_segmentor.segment('亚硝酸盐是一种化学物质')
print '\t'.join(words)
customized_segmentor.release()
4.3 词性标注
应用 pyltp 进行词性标注示例如下
#-*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/path/to/your/ltp_data' # ltp 模型目录的门路
pos_model_path = os.path.join(LTP_DATA_DIR, 'pos.model') # 词性标注模型门路,模型名称为 `pos.model`
from pyltp import Postagger
postagger = Postagger() # 初始化实例
postagger.load(pos_model_path) # 加载模型
words = ['元芳', '你', '怎么', '看'] # 分词后果
postags = postagger.postag(words) # 词性标注
print '\t'.join(postags)
postagger.release() # 开释模型
后果如下
参数 words
是分词模块的返回值,也反对 Python 原生的 list 类型,例如
words = ['元芳', '你', '怎么', '看']
postags = postagger.postag(words)
LTP 应用 863 词性标注集,具体请参考 词性标注集。
- 应用词性标注内部词典
pyltp 词性标注同样反对用户的内部词典。词性标注内部词典同样为一个文本文件,每行指定一个词,第一列指定单词,第二列之后指定该词的候选词性(能够有多项,每一项占一列),列与列之间用空格辨别。示例如下
命名实体辨认
应用 pyltp 进行命名实体辨认示例如下
#-*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/path/to/your/ltp_data' # ltp 模型目录的门路
ner_model_path = os.path.join(LTP_DATA_DIR, 'ner.model') # 命名实体辨认模型门路,模型名称为 `pos.model`
from pyltp import NamedEntityRecognizer
recognizer = NamedEntityRecognizer() # 初始化实例
recognizer.load(ner_model_path) # 加载模型
words = ['元芳', '你', '怎么', '看']
postags = ['nh', 'r', 'r', 'v']
netags = recognizer.recognize(words, postags) # 命名实体辨认
print '\t'.join(netags)
recognizer.release() # 开释模型
其中,words
和 postags
别离为分词和词性标注的后果。同样反对 Python 原生的 list 类型。
后果如下
LTP 采纳 BIESO 标注体系。B 示意实体开始词,I 示意实体两头词,E 示意实体完结词,S 示意独自成实体,O 示意不形成命名实体。
LTP 提供的命名实体类型为: 人名(Nh)、地名(Ns)、机构名(Ni)。
B、I、E、S 地位标签和实体类型标签之间用一个横线 -
相连;O 标签后没有类型标签。
具体标注请参考 命名实体辨认标注集。
4.4 依存句法分析
应用 pyltp 进行依存句法分析示例如下
#-*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/path/to/your/ltp_data' # ltp 模型目录的门路
par_model_path = os.path.join(LTP_DATA_DIR, 'parser.model') # 依存句法分析模型门路,模型名称为 `parser.model`
from pyltp import Parser
parser = Parser() # 初始化实例
parser.load(par_model_path) # 加载模型
words = ['元芳', '你', '怎么', '看']
postags = ['nh', 'r', 'r', 'v']
arcs = parser.parse(words, postags) # 句法分析
print "\t".join("%d:%s" % (arc.head, arc.relation) for arc in arcs)
parser.release() # 开释模型
其中,words
和 postags
别离为分词和词性标注的后果。同样反对 Python 原生的 list 类型。
后果如下
arc.head
示意依存弧的父节点词的索引。ROOT 节点的索引是 0,第一个词开始的索引顺次为 1、2、3…
arc.relation
示意依存弧的关系。
arc.head
示意依存弧的父节点词的索引,arc.relation
示意依存弧的关系。
标注集请参考 依存句法关系。
4.5 语义角色标注
应用 pyltp 进行语义角色标注示例如下
#-*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/path/to/your/ltp_data' # ltp 模型目录的门路
srl_model_path = os.path.join(LTP_DATA_DIR, 'srl') # 语义角色标注模型目录门路,模型目录为 `srl`。留神该模型门路是一个目录,而不是一个文件。from pyltp import SementicRoleLabeller
labeller = SementicRoleLabeller() # 初始化实例
labeller.load(srl_model_path) # 加载模型
words = ['元芳', '你', '怎么', '看']
postags = ['nh', 'r', 'r', 'v']
#arcs 应用依存句法分析的后果
roles = labeller.label(words, postags, arcs) # 语义角色标注
#打印后果
for role in roles:
print role.index, "".join(["%s:(%d,%d)" % (arg.name, arg.range.start, arg.range.end) for arg in role.arguments])
labeller.release() # 开释模型
后果如下
3 A0:(0,0)A0:(1,1)ADV:(2,2)
第一个词开始的索引顺次为 0、1、2…
返回后果 roles
是对于多个谓词的语义角色剖析的后果。因为一句话中可能不含有语义角色,所以后果可能为空。
role.index
代表谓词的索引,role.arguments
代表对于该谓词的若干语义角色。
arg.name
示意语义角色类型,arg.range.start
示意该语义角色起始词地位的索引,arg.range.end
示意该语义角色完结词地位的索引。
例如下面的例子,因为后果输入一行,所以“元芳你怎么看”有一组语义角色。其谓词索引为 3,即“看”。这个谓词有三个语义角色,范畴别离是 (0,0) 即“元芳”,(1,1) 即“你”,(2,2) 即“怎么”,类型别离是 A0、A0、ADV。
arg.name
示意语义角色关系,arg.range.start
示意起始词地位,arg.range.end
示意完结地位。
更多优质内容请关注公号 & 知乎:汀丶人工智能;会提供一些相干的资源和优质文章,收费获取浏览。
我的项目码源见文章顶部或文末
我的项目码源点击跳转
本文参加了 SegmentFault 思否写作挑战「摸索编码世界之旅 – 记我的第一份编程工作」,欢送正在浏览的你也退出。