基于机器学习的文本分类
知识点
1.文本示意办法
- One-hot:这种示意办法无奈表白单词与单词之间的类似水平
`measurements = [ {'city': 'Dubai', 'temperature': 33.}, {'city': 'London', 'temperature': 12.},{'city': 'San Francisco', 'temperature': 18.},]from sklearn.feature_extraction import DictVectorizervec = DictVectorizer()vec.fit_transform(measurements).toarray()
`
- Bag of Words:词袋示意,也称为计数向量示意(Count Vectors)。文档的向量示意能够间接用单词的向量进行求和失去。
scikit-learn提供了从文本内容中提取数字特色的常见办法,即:
- tokenizing: 标记字符串并为每个可能的token提供整数id,例如应用空白和标点作为token分隔符;(分词标记)
- counting: 统计每个文档中呈现的token次数;(统计词频)
- normalizing: 通过缩小大多数样本/文档中都会呈现的一般性标记来进行标准化和加权。(标准化/归一化)
在此计划中,特色和样本定义如下:
每个独立token呈现的频率(已标准化或未标准化)作为特色。
给定文档的所有token频率的向量作为多元样本。
因而,文本语料库能够由矩阵示意,每一行代表一个文本,每一列代表一个token(例如一个单词)。
向量化:将文本汇合转换为数字特征向量的个别过程。
这种办法(tokenizing,counting和normalizing)称为“词袋”或“n-gram”模型。 即只通过单词频率来形容文档,而齐全疏忽文档中单词的绝对地位信息。
John likes to watch movies. Mary likes too. -->> [1, 2, 1, 1, 1, 0, 0, 0, 1, 1]John also likes to watch football games. -->> [1, 1, 1, 1, 0, 1, 1, 1, 0, 0]
具体实现:sklearn
1.CountVectorizer
2.TfidfVectorizer
3.HashingVectorizer
Feature extraction
Vectorize实例:
>>> measurements = [... {'city': 'Dubai', 'temperature': 33.},... {'city': 'London', 'temperature': 12.},... {'city': 'San Francisco', 'temperature': 18.},... ]>>> from sklearn.feature_extraction import DictVectorizer>>> vec = DictVectorizer()>>> vec.fit_transform(measurements).toarray()array([[ 1., 0., 0., 33.], [ 0., 1., 0., 12.], [ 0., 0., 1., 18.]])>>> vec.get_feature_names()['city=Dubai', 'city=London', 'city=San Francisco', 'temperature']
SKlearn中的文本提取
- TF-IDF
TF-IDF的分数代表了词语在以后文档和整个语料库中的绝对重要性。TF-IDF 分数由两局部组成:第一局部是词语频率(Term Frequency),第二局部是逆文档频率(Inverse Document Frequency)。其中计算语料库中文档总数除以含有该词语的文档数量,而后再取对数就是逆文档频率。
TF(t)= 该词语在以后文档呈现的次数 / 以后文档中词语的总数
IDF(t)= log_e(文档总数 / 呈现该词语的文档总数)
TF-IDF与一个词在以后文档中的呈现次数成正比,与该词在整个语料库中的呈现次数成反比
- 共现矩阵 (Cocurrence matrix)
ex:
John likes to watch movies.John likes to play basketball.
个别配合PCA或SVD将其进行降维,如将原来 m×n 的矩阵降为 m×r的矩阵,其中 r<n,行将词向量的长度进行缩减。
- 分布式示意
- NNLM(Neural Network Language model)
- CBOW 间断词袋
CBOW是给定上下文,来预测input word
- 负例采样 Negative Sampling
应用霍夫曼树来代替传统的神经网络,能够进步模型训练的效率。然而如果咱们的训练样本里的中心词w是一个很生僻的词,那么就得在霍夫曼树中辛苦的向下走很久了。Negative Sampling就是这么一种求解word2vec模型的办法,它摒弃了霍夫曼树,采纳了Negative Sampling(负采样)的办法来求解。
- Skip-gram
Skip-Gram是给定input word来预测上下文
- fasttext
CBOW预测上下文的两头词,fasttext预测文本标签。
fasttext的python实现
参考:
NLP-Beginner:自然语言解决入门练习
知乎
word2vec原理(三) 基于Negative Sampling的模型
用gensim学习word2vec