关于人工智能:基于知识图谱的红楼梦人物关系可视化及问答系统含码源命名实体识别关系识别LTP简单教学

34次阅读

共计 7316 个字符,预计需要花费 19 分钟才能阅读完成。

基于常识图谱的《红楼梦》人物关系可视化及问答零碎(含码源):命名实体辨认、关系辨认、LTP 简略教学

文件树:

1) app.py 是整个零碎的主入口

2) templates 文件夹是 HTML 的页面

 |-index.html 欢送界面 <br> 
 |-search.html 搜寻人物关系页面 <br>
 |-all_relation.html 所有人物关系页面 <br>
 |-KGQA.html 人物关系问答页面 <br>

3) static 文件夹寄存 css 和 js,是页面的款式和成果的文件

4) raw_data 文件夹是存在数据处理后的三元组文件

5) neo_db 文件夹是常识图谱构建模块

 |-config.py 配置参数 <br>
 |-create_graph.py 创立常识图谱,图数据库的建设 <br>
 |-query_graph.py 常识图谱的查问 <br>

6) KGQA 文件夹是问答零碎模块

 |-ltp.py 分词、词性标注、命名实体辨认 <br>

7) spider 文件夹是爬虫模块

 |- get_*.py 是之前爬取人物材料的代码,曾经产生好 images 和 json 能够不必再执行 <br>
 |-show_profile.py 是调用人物材料和图谱展现在前端的代码


部署步骤:

  • 0. 装置所需的库 执行 pip install -r requirement.txt
  • 1. 先下载好 neo4j 图数据库,并配好环境(留神 neo4j 须要 jdk8)。批改 neo_db 目录下的配置文件 config.py, 设置图数据库的账号和明码。
  • 2. 切换到 neo_db 目录下,执行 python create_graph.py 建设常识图谱
  • 3. 去 这里 下载好 ltp 模型。ltp 简介
  • 4. 在 KGQA 目录下,批改 ltp.py 里的 ltp 模型文件的寄存目录
  • 5. 运行 python app.py, 浏览器关上 localhost:5000 即可查看

1. 零碎整体流程图:

我的项目码源见文章顶部或文末

我的项目码源点击跳转

2. 主界面 - 基于常识图谱的《红楼梦》人物关系可视化及问答零碎

网站示例:

欢送界面

3.KGQA 局部码源展现

#-*- coding: utf-8 -*-
import pyltp 
import os
LTP_DATA_DIR = '/Users/chizhu/data/ltp_data_v3.4.0'  # ltp 模型目录的门路


def cut_words(words):
    segmentor = pyltp.Segmentor()
    seg_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')
    segmentor.load(seg_model_path)
    words = segmentor.segment(words)
    array_str="|".join(words)
    array=array_str.split("|")
    segmentor.release()
    return array


def words_mark(array):

    # 词性标注模型门路,模型名称为 `pos.model`
    pos_model_path = os.path.join(LTP_DATA_DIR, 'pos.model')
    postagger = pyltp.Postagger()  # 初始化实例
    postagger.load(pos_model_path)  # 加载模型
    postags = postagger.postag(array)  # 词性标注
    pos_str=' '.join(postags)
    pos_array=pos_str.split(" ")
    postagger.release()  # 开释模型
    return pos_array

def get_target_array(words):
    target_pos=['nh','n']
    target_array=[]
    seg_array=cut_words(words)
    pos_array = words_mark(seg_array)
    for i in range(len(pos_array)):
        if pos_array[i] in target_pos:
            target_array.append(seg_array[i])
    target_array.append(seg_array[1])
    return target_array




4.LTP 简略教学

pyltp 是 LTP 的 Python 封装,提供了分词,词性标注,命名实体辨认,依存句法分析,语义角色标注的性能。

对于各个模块工作的介绍、标注体系、性能指标,能够查阅 这里 的介绍。

pyltp 的所有输出的剖析文本和输入的后果的编码均为 UTF-8。

如果您以非 UTF-8 编码的文本输出进行剖析,后果可能为空。请留神源代码文件的默认编码。

因为 Windows 终端采纳 GBK 编码显示,间接输入 pyltp 的剖析后果会在终端显示为乱码。您能够将规范输入重定向到文件,以 UTF8 形式查看文件,就能够解决显示乱码的问题。

4.1 分句

应用 pyltp 进行分句示例如下

#-*- coding: utf-8 -*-
from pyltp import SentenceSplitter
sents = SentenceSplitter.split('元芳你怎么看?我就趴窗口上看呗!')  # 分句
print '\n'.join(sents)

后果如下

4.2 分词

#-*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/path/to/your/ltp_data'  # ltp 模型目录的门路
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型门路,模型名称为 `cws.model`

from pyltp import Segmentor
segmentor = Segmentor()  # 初始化实例
segmentor.load(cws_model_path)  # 加载模型
words = segmentor.segment('元芳你怎么看')  # 分词
print '\t'.join(words)
segmentor.release()  # 开释模型

后果如下

words = segmentor.segment('元芳你怎么看') 的返回值类型是 native 的 VectorOfString 类型,能够应用 list 转换成 Python 的列表类型,例如

...
>>> words = segmentor.segment('元芳你怎么看')
>>> type(words)
<class 'pyltp.VectorOfString'>
>>> words_list = list(words)
>>> type(words_list)
<type 'list'>
>>> print words_list
['\xe5\xae\xa2\xe6\x9c\x8d', '\xe5\xa4\xaa', '\xe7\xb3\x9f\xe7\xb3\x95', '\xe4\xba\x86']

4.2.1 应用分词内部词典

pyltp 分词反对用户应用自定义词典。分词内部词典自身是一个文本文件(plain text),每行指定一个词,编码同样须为 UTF-8,样例如下所示

示例如下

#-*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/path/to/your/ltp_data'  # ltp 模型目录的门路
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型门路,模型名称为 `cws.model`

from pyltp import Segmentor
segmentor = Segmentor()  # 初始化实例
segmentor.load_with_lexicon(cws_model_path, '/path/to/your/lexicon') # 加载模型,第二个参数是您的内部词典文件门路
words = segmentor.segment('亚硝酸盐是一种化学物质')
print '\t'.join(words)
segmentor.release()

4.2.2 应用个性化分词模型

个性化分词是 LTP 的特色性能。个性化分词为了解决测试数据切换到如小说、财经等不同于新闻畛域的畛域。在切换到新畛域时,用户只须要标注大量数据。个性化分词会在原有新闻数据根底之上进行增量训练。从而达到即利用新闻畛域的丰盛数据,又兼顾指标畛域特殊性的目标。

pyltp 反对应用用户训练好的个性化模型。对于个性化模型的训练需应用 LTP,具体介绍和训练方法请参考 个性化分词。

在 pyltp 中应用个性化分词模型的示例如下

#*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/path/to/your/ltp_data'  # ltp 模型目录的门路
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型门路,模型名称为 `cws.model`

from pyltp import CustomizedSegmentor
customized_segmentor = CustomizedSegmentor()  # 初始化实例
customized_segmentor.load(cws_model_path, '/path/to/your/customized_model') # 加载模型,第二个参数是您的增量模型门路
words = customized_segmentor.segment('亚硝酸盐是一种化学物质')
print '\t'.join(words)
customized_segmentor.release()

同样,应用个性化分词模型的同时也能够应用内部词典

#-*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/path/to/your/ltp_data'  # ltp 模型目录的门路
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型门路,模型名称为 `cws.model`

from pyltp import CustomizedSegmentor
customized_segmentor = CustomizedSegmentor()  # 初始化实例
customized_segmentor.load_with_lexicon(cws_model_path, '/path/to/your/customized_model', '/path/to/your/lexicon') # 加载模型
words = customized_segmentor.segment('亚硝酸盐是一种化学物质')
print '\t'.join(words)
customized_segmentor.release()

4.3 词性标注

应用 pyltp 进行词性标注示例如下

#-*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/path/to/your/ltp_data'  # ltp 模型目录的门路
pos_model_path = os.path.join(LTP_DATA_DIR, 'pos.model')  # 词性标注模型门路,模型名称为 `pos.model`

from pyltp import Postagger
postagger = Postagger() # 初始化实例
postagger.load(pos_model_path)  # 加载模型

words = ['元芳', '你', '怎么', '看']  # 分词后果
postags = postagger.postag(words)  # 词性标注

print '\t'.join(postags)
postagger.release()  # 开释模型

后果如下

参数 words 是分词模块的返回值,也反对 Python 原生的 list 类型,例如

words = ['元芳', '你', '怎么', '看']
postags = postagger.postag(words)

LTP 应用 863 词性标注集,具体请参考 词性标注集。

  • 应用词性标注内部词典

pyltp 词性标注同样反对用户的内部词典。词性标注内部词典同样为一个文本文件,每行指定一个词,第一列指定单词,第二列之后指定该词的候选词性(能够有多项,每一项占一列),列与列之间用空格辨别。示例如下

命名实体辨认

应用 pyltp 进行命名实体辨认示例如下

#-*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/path/to/your/ltp_data'  # ltp 模型目录的门路
ner_model_path = os.path.join(LTP_DATA_DIR, 'ner.model')  # 命名实体辨认模型门路,模型名称为 `pos.model`

from pyltp import NamedEntityRecognizer
recognizer = NamedEntityRecognizer() # 初始化实例
recognizer.load(ner_model_path)  # 加载模型

words = ['元芳', '你', '怎么', '看']
postags = ['nh', 'r', 'r', 'v']
netags = recognizer.recognize(words, postags)  # 命名实体辨认

print '\t'.join(netags)
recognizer.release()  # 开释模型

其中,wordspostags 别离为分词和词性标注的后果。同样反对 Python 原生的 list 类型。

后果如下

LTP 采纳 BIESO 标注体系。B 示意实体开始词,I 示意实体两头词,E 示意实体完结词,S 示意独自成实体,O 示意不形成命名实体。

LTP 提供的命名实体类型为: 人名(Nh)、地名(Ns)、机构名(Ni)。

B、I、E、S 地位标签和实体类型标签之间用一个横线 - 相连;O 标签后没有类型标签。

具体标注请参考 命名实体辨认标注集。

4.4 依存句法分析

应用 pyltp 进行依存句法分析示例如下

#-*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/path/to/your/ltp_data'  # ltp 模型目录的门路
par_model_path = os.path.join(LTP_DATA_DIR, 'parser.model')  # 依存句法分析模型门路,模型名称为 `parser.model`

from pyltp import Parser
parser = Parser() # 初始化实例
parser.load(par_model_path)  # 加载模型

words = ['元芳', '你', '怎么', '看']
postags = ['nh', 'r', 'r', 'v']
arcs = parser.parse(words, postags)  # 句法分析

print "\t".join("%d:%s" % (arc.head, arc.relation) for arc in arcs)
parser.release()  # 开释模型

其中,wordspostags 别离为分词和词性标注的后果。同样反对 Python 原生的 list 类型。

后果如下

arc.head 示意依存弧的父节点词的索引。ROOT 节点的索引是 0,第一个词开始的索引顺次为 1、2、3…

arc.relation 示意依存弧的关系。

arc.head 示意依存弧的父节点词的索引,arc.relation 示意依存弧的关系。

标注集请参考 依存句法关系。

4.5 语义角色标注

应用 pyltp 进行语义角色标注示例如下

#-*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/path/to/your/ltp_data'  # ltp 模型目录的门路
srl_model_path = os.path.join(LTP_DATA_DIR, 'srl')  # 语义角色标注模型目录门路,模型目录为 `srl`。留神该模型门路是一个目录,而不是一个文件。from pyltp import SementicRoleLabeller
labeller = SementicRoleLabeller() # 初始化实例
labeller.load(srl_model_path)  # 加载模型

words = ['元芳', '你', '怎么', '看']
postags = ['nh', 'r', 'r', 'v']
#arcs 应用依存句法分析的后果
roles = labeller.label(words, postags, arcs)  # 语义角色标注

#打印后果
for role in roles:
    print role.index, "".join(["%s:(%d,%d)" % (arg.name, arg.range.start, arg.range.end) for arg in role.arguments])
labeller.release()  # 开释模型

后果如下

3 A0:(0,0)A0:(1,1)ADV:(2,2)

第一个词开始的索引顺次为 0、1、2…

返回后果 roles 是对于多个谓词的语义角色剖析的后果。因为一句话中可能不含有语义角色,所以后果可能为空。

role.index 代表谓词的索引,role.arguments 代表对于该谓词的若干语义角色。

arg.name 示意语义角色类型,arg.range.start 示意该语义角色起始词地位的索引,arg.range.end 示意该语义角色完结词地位的索引。

例如下面的例子,因为后果输入一行,所以“元芳你怎么看”有一组语义角色。其谓词索引为 3,即“看”。这个谓词有三个语义角色,范畴别离是 (0,0) 即“元芳”,(1,1) 即“你”,(2,2) 即“怎么”,类型别离是 A0、A0、ADV。

arg.name 示意语义角色关系,arg.range.start 示意起始词地位,arg.range.end 示意完结地位。

更多优质内容请关注公号 & 知乎:汀丶人工智能;会提供一些相干的资源和优质文章,收费获取浏览。

我的项目码源见文章顶部或文末

我的项目码源点击跳转

本文参加了 SegmentFault 思否写作挑战「摸索编码世界之旅 – 记我的第一份编程工作」,欢送正在浏览的你也退出。

正文完
 0