scikitlearn机器学习库

51次阅读

共计 1005 个字符，预计需要花费 3 分钟才能阅读完成。

词袋模型(Bag of Words, 简称 BoW)。词袋模型假设我们不考虑文本中词与词之间的上下文关系，仅仅只考虑
所有词的权重。而权重与词在文本中出现的频率有关。从词的角度进行文本数据挖掘是众多挖掘方式中的一种。词袋模型的步骤：分词（tokenizing）：统计修订词特征值（counting）：统计每个词在文本中出现的次数，我们就可以得到该文本基
        于词的特征，如果将各个文本样本的这些词与对应的词频放
        在一起，就是我们常说的向量化。向量化完毕后一般也会使用 TF-IDF 进行特征的权重修正，因为，如果语料是有很多篇文本组成，那么一个词在一篇文
        本中出现的次数往往不够科学，要把所有文本一起考虑。标准化（normalizing）：将特征进行标准化，以便于挖掘。

fit 方法是用于从训练集中学习模型参数，其中包括归一化和均值，标准偏差的处理。transform 方法用于将模型用于位置数据

fit_transform 是 fit 和 transform 的合集，高效的将模型训练和转
化合并到一起。

文本型文档集合转换成计数矩阵。底层用 scipy.sparse.csr_matrix 库实现，会产生一个计数的稀疏
表示。如果不提前准备词典，并且不提供一个分析器做特征选择，那么特征数量和文档集合中词汇量数量相等。输入可迭代的语料，得到语料中所有单词，统计出每个单词在每条迭代
元语料元素的个数。所有语料个数为 sc (变量 i)，单词记为 wc (变量 j)。得到的单词个
数矩阵 sc * wc。（i,j）表示第 i 个单词在语料 j 中出现的次数。


self.fit_transform（corpus）返回值：每个单词在每条语料中出现次数。self.get_feature_names
    返回值：按照字典排序的单词列表


对数据进行降维的一种向量化方式。大规模的文本处理中，由于特征的维度对应分词词汇表的大小，所以维
度可能非常恐怖，此时需要进行降维，不能直接用 CountVectorizer     的向量化方法。这种方式又叫 Hash Trick。signed hash trick 是一种升级的 Hash Trick 用来解决某些哈希
位置的值过大。由于不知道每一列的意义，所以 Hash Trick 的解释性不强。

参考
文本挖掘预处理之向量化与 Hash Trick

正文完

发表至：无分类

2019-11-11

0

2019国内主流报表工具对比谁才是你心目中的NO1

如何评估RPA需求RPA需求的模型