关于自然语言处理:自适应学习

43次阅读

共计 1690 个字符,预计需要花费 5 分钟才能阅读完成。

试题主动匹配知识点,并依据使用者的应用状况,为其推送相应的试题。

常识图谱

什么是常识图谱

常识图谱是一种结构化的语义网络,是用来示意实体与实体之间关联的结构化语义网络。

在应用常识图谱的时候,会用图的模式来形容常识工程中常识实体的关系。其中节点示意实体,边用来示意实体之间的关系。在这里引入三元组“实体 - 关系 - 实体”或“实体 - 属性 - 属性值”进行常识示意, 每个实体可用一个全局惟一确定的 ID 标识, 属性 - 属性值形容常识实体的外在个性, 常识实体之间通过关系形成网状的知识结构。

所以在这里,笔者忽然对常识图谱产生一种相熟的感觉,没错,ER 图!不难发现,这根咱们构建 ER 图所用到的元素基本一致。

下图为常识图谱的网络结构,其中 Ei 为常识实体,Ri,j 示意实体之间的关系,ET 示意实体的属性:

咱们也能够将实体的属性用外连一个圆的形式示意, 比方:

常识图谱从逻辑上分为数据层和模式层,数据层上一常识以事实为单位贮存在数据库中,每条常识用一个 SPO(Subject-Predicate-Object)三元组 示意。模式层用于存储通过提炼的常识。

常识图谱的构建

常识图谱的构建从原始数据登程,通过一些技术,将常识事实从原始数据中提取进去,再把常识元素放到知识库的数据层和模式层中。常识图谱的构建是一个迭代更新的过程

常识图谱包含自顶向下和自下而上两种构建形式

关联规定的开掘

以搜索引擎为例,咱们在输出要搜寻的内容时,都会为咱们补全要搜寻的内容。它会找出互联网上经常一起呈现的 词语对,而后为咱们进行推送补全。

利用到咱们的内容上,当有某个词语经常与某个知识点进行匹配,那么咱们就能够找出高频的进行举荐,那么在进行匹配的时候,就不须要扫描整个知识库,这将节俭很大一部分匹配工夫。

FP-Growth 算法,将数据集存储在一个特定的称做 FP 树的构造之后发现频繁项集或者频繁项对,即常在一块呈现的元素项的汇合 FP 树。而后再对 FP 树进行开掘,找到咱们须要的关联信息。

文本分类

机器学习中 有监督(须要对数据进行已知分类的标记)的分类办法,基于提前定义好的文本类别,通过把文本数据作为分类的对象,将须要分类的文本划分至提前定义好的文本类别中。

该技术将会用于试题的知识点匹配。

聚类分析

相较于文本分类,聚类分析是一种 无监督 (不须要对数据进行标记) 的学习办法。它的原理是基于特定的数据集寻找该数据集中具备类似特色的数据,并把领有类似特色的数据划分为一组。

该技术会在剖析使用者的行为时应用。

试题主动匹配知识点

思路剖析

文本数据预处理——> 文本特色的提取——> 分类模型成果比对——> 抉择分类模型:

文本预处理

解决分词和停用词过滤。

分词,将长句或段落转换为多个简略词和标点示意。能够将中文间断字节流用离散单词流模式代替。即采纳特定词典的分词办法依照特定的分词算法进行分词。

停用词过滤解决。分词后的文本蕴含许多没有意义的单词,停用词过滤解决就是将一些齐全没有用或是没有意义然而呈现频率很高的单词去除。

文本特征提取

TF-IDF:常用语数据挖掘的加权技术。在进行之前,须要将解决过的文本用计算机能辨认和解决的结构化模式示意,用向量空间模型 VSM 来示意。同时,将加权的文本特色忘性模式转换解决,记为:Ci=(Ci1,Ci2,Ci3…Cij…Cin),Cij 示意第 i 个试题文本,第 j 个特征值的权重。

Cij = TFij x IDFj

其中 TFij 示意第 i 个试题文本中,文本特色项 j 呈现的词频,IDFj 示意整个文本特色集中特色项 j 呈现的次数,即逆向文档频率。

分类器分类

生成矩阵示意试题和知识点之间的从属关系:

其中 qkij 示意试题 Qi 和知识点 Kj 之间是否具备从属关系,即是否属于知识点Kj

总结

初步对性能实现的根本过程,以及对实现过程中可能会用到的办法、算法做了整顿总结,还有很多细节的中央没有思考分明。整体上,实现将题目和知识点进行匹配,最要害的还是常识图谱的构建。


相干参考:
https://blog.csdn.net/javastart/article/details/50521453
基于常识图谱的自适应学习零碎的设计与实现
基于常识图谱的自适应学习零碎的钻研与实现

正文完
 0