关于数据挖掘:python推荐系统实现矩阵分解来协同过滤附代码数据

原文链接：http://tecdat.cn/?p=10911

最近咱们被客户要求撰写对于举荐零碎的钻研报告，包含一些图形和统计输入。

用户和产品的潜在特色编写举荐零碎矩阵合成工作原理应用潜在表征来找到相似的产品

1. 用户和产品的潜在特色

咱们能够通过为每个用户和每部电影调配属性，而后将它们相乘并合并后果来预计用户喜爱电影的水平。

雷同的计算能够示意为矩阵乘法问题。首先，咱们把用户属性放在一个名为U的矩阵中，在这个例子中是5，-2，1，-5和5。而后，咱们把电影属性放在一个名为M的矩阵中，咱们应用矩阵乘法来找出用户的评分。

但要做到这一点，咱们必须曾经晓得用户属性和电影属性。为每个用户和每部电影提供属性评级并不容易。咱们须要找到一种主动的办法。咱们来看看电影评分矩阵，

它显示了咱们数据集中的所有用户如何评估电影。这个矩阵十分稠密，但它给了咱们很多信息。例如，咱们晓得用户ID2给电影1号五颗星。所以，基于此，咱们能够猜想，这个用户的属性可能相似于电影的属性，因为它们匹配的很好。换句话说，咱们有一些线索能够应用。

让咱们看看咱们如何利用这些线索来理解每部电影和每个用户。在咱们刚刚看到的等式中，U乘M等于电影等级，咱们曾经晓得一些用户的理论电影等级。咱们曾经领有的电影评分矩阵是咱们方程式的解决方案。尽管它是解决方案的一部分，然而这个阵列依然有很多破绽，但对于咱们来说，这曾经足够了。

实际上，咱们能够应用目前为止咱们所晓得的电影评级，而后逆向找到满足该等式的U矩阵和M矩阵。当然，这才是最酷的局部。当咱们将U和M相乘时，他们实际上会给咱们一个残缺的矩阵，咱们能够应用那个实现的矩阵来举荐电影。让咱们回顾一下咱们将如何构建这个举荐零碎。

首先，咱们创立了咱们在数据集中所有用户评论的矩阵。接下来，咱们从已知的评论中合成出一个U矩阵和一个M矩阵。最初，咱们将把咱们找到的U和M矩阵相乘，失去每个用户和每部电影的评分。然而还有一个问题。以前，当咱们为每个用户和每部电影手工创立属性时，咱们晓得每个属性的含意。咱们晓得第一个属性代表动作，第二个代表剧情，等等。然而当咱们应用矩阵合成来提出U和M时，咱们不晓得每个值是什么意思。咱们所晓得的是，每个价值都代表了一些让用户感觉被某些电影吸引的特色。咱们不晓得如何用文字来形容这些特色。因而，U和M被称为潜在向量。潜在的词意味着暗藏。换句话说，这些向量是暗藏的信息，咱们通过查看评论数据和反向推导。

点击题目查阅往期内容

混合IBCF协同过滤举荐算法举荐引擎的摸索

左右滑动查看更多

2. 编写举荐零碎

咱们来编写举荐零碎的次要代码。关上Chapter 5/factor_review_matrix.py。首先，我将应用pandas read_csv函数将检查数据集加载到名为raw_dataset_df的数据集中。

而后咱们应用pandas数据透视表函数来构建评论矩阵。在这一点上，ratings_df蕴含一个稠密的评论阵列。

接下来，咱们心愿将数组合成以找到用户属性矩阵和咱们能够从新乘回的电影属性矩阵来从新创立收视率数据。为此，咱们将应用低秩矩阵合成算法。我曾经在matrix_factorization_utilities.py中蕴含了这个实现。咱们将在下一个视频中具体探讨它是如何工作的，但让咱们持续应用它。首先，咱们传递了评分数据，然而咱们将调用pandas的as_matrix()函数，以确保咱们作为一个numpy矩阵数据类型传入。

接下来，这个办法承受一个名为num_features的参数。Num_features管制为每个用户和每个电影生成多少个潜在特色。咱们将以15为终点。这个函数还有个参数regularization_amount。当初让咱们传入0.1。在前面的文章中咱们将探讨如何调整这个参数。

函数的后果是U矩阵和M矩阵，每个用户和每个电影别离具备15个属性。当初，咱们能够通过将U和M相乘来失去每部电影的评分。但不是应用惯例的乘法运算符，而是应用numpy的matmul函数，所以它晓得咱们要做矩阵乘法。

后果存储在一个名为predicted_ratings的数组中。最初，咱们将predict_ratings保留到一个csv文件。

首先，咱们将创立一个新的pandas数据框来保留数据。对于这个数据框，咱们会通知pandas应用与ratings_df数据框中雷同的行和列名称。而后，咱们将应用pandas csv函数将数据保留到文件。运行这个程序后能够看到，它创立了一个名为predicted_ratings.csv的新文件。咱们能够应用任何电子表格应用程序关上该文件。

这个数据看起来就像咱们原来的评论数据，当初每个单元格都填满了。当初咱们评估下每个单个用户会为每个独自的电影评分。例如，咱们能够看到用户3评级电影4，他们会给它一个四星级的评级。当初咱们晓得所有这些评分，咱们能够依照评分程序向用户举荐电影。让咱们看看用户1号，看看咱们举荐给他们的电影。在所有这些电影中，如果咱们排除了用户以前评估过的电影，左边34号电影是最高分的电影，所以这是咱们应该举荐给这个用户的第一部电影。当用户观看这部电影时，咱们会要求他们评分。如果他们的评估与咱们预测的不统一，咱们将增加新评级并从新计算此矩阵。这将有助于咱们进步整体评分。咱们从中取得的评分越多，咱们的评分阵列中就会呈现的孔越少，咱们就有更好的机会为U和M矩阵提供精确的值。

3. 矩阵合成工作原理

因为评分矩阵等于将用户属性矩阵乘以电影属性矩阵的后果，所以咱们能够应用矩阵合成反向工作以找到U和M的值。在代码中，咱们应用称为低秩矩阵合成的算法，去做这个。咱们来看看这个算法是如何工作的。矩阵合成是一个大矩阵能够分解成更小的矩阵的思维。所以，假如咱们有一个大的数字矩阵，并且假如咱们想要找到两个更小的矩阵相乘来产生那个大的矩阵，咱们的指标是找到两个更小的矩阵来满足这个要求。如果您碰巧是线性代数的专家，您可能晓得有一些规范的办法来对矩阵进行因式分解，比方应用一个称为奇怪值合成的过程。然而，这是有这么一个非凡的状况下，将无奈失常工作。问题是咱们只晓得大矩阵中的一些值。大矩阵中的许多条目是空白的，或者用户还没有查看特定的电影。所以，咱们不是间接将评级数组分成两个较小的矩阵，而是应用迭代算法预计较小的矩阵的值。咱们会猜想和查看，直到咱们靠近正确的答案。哎哎等等，咋回事呢？首先，咱们将创立U和M矩阵，但将所有值设置为随机数。因为U和M都是随机数，所以如果咱们当初乘以U和M，后果是随机的。下一步是查看咱们的计算评级矩阵与实在评级矩阵与U和M的以后值有多不同。然而咱们将疏忽评级矩阵中所有没有数据的点，只看在咱们有理论用户评论的中央。咱们将这种差别称为老本。老本就是错误率。接下来，咱们将应用数字优化算法来搜寻最小老本。数值优化算法将一次调整U和M中的数字。指标是让每一步的老本函数更接近于零。咱们将应用的函数称为fmin_cg。它搜寻使函数返回最小可能输入的输出。它由SciPy库提供。最初，fmin_cg函数将循环数百次，直到咱们失去尽可能小的代价。当老本函数的价值如咱们所能失去的那样低，那么U和M的最终值就是咱们将要应用的。然而因为它们只是近似值，所以它们不会齐全完满。当咱们将这些U矩阵和M矩阵相乘来计算电影评级时，将其与原始电影评级进行比拟，咱们会看到还是有一些差别。然而只有咱们靠近，大量的差别就无关紧要了。

4. 应用潜在特色来找到相似的产品

搜索引擎是用户发现新网站的罕用形式。当第一次用户从搜索引擎拜访您的网站时，您对用户尚不足以提供个性化举荐，直到用户输出一些产品评论时，咱们的举荐零碎还不能举荐他们。在这种状况下，咱们能够向用户展现与他们曾经在查看的产品相似的产品。指标是让他们在网站上，让他们看更多的产品。你可能在网上购物网站上看到过这个性能，如果你喜爱这个产品，你可能也会喜爱这些其余的产品。通过应用矩阵合成计算产品属性，咱们能够计算产品类似度。让咱们来看看find_similar_products.py。首先，咱们将应用pandas的读取CSV性能加载电影评级数据集。

咱们还会应用read_csv将movies.csv加载到名为movies_df的数据框中。

而后，咱们将应用pandas的数据透视表函数(pivot_table)来创立评分矩阵，咱们将应用矩阵合成来计算U和M矩阵。当初，每个电影都由矩阵中的一列示意。首先，咱们应用numpy的转置函数来触发矩阵，使每一列变成一行。

这只是使数据更容易解决，它不会扭转数据自身。在矩阵中，每个电影有15个惟一的值代表该电影的特色。这意味着其余电影简直雷同的电影应该是十分类似的。要找到相似这个电影的其余电影，咱们只须要找到其余电影的编号是最靠近这部电影的数字。这只是一个减法问题。让咱们抉择用户正在看的次要电影，让咱们抉择电影ID5。

如果你喜爱，你能够抉择其余的电影。当初，咱们来看看电影ID5的题目和流派。咱们能够通过查看movies_df数据框并应用pandas的loc函数通过其索引查找行来做到这一点。让咱们打印出该电影的题目和流派。

接下来，让咱们从矩阵中获取电影ID为5的电影属性。咱们必须在这里减去一个，因为M是0索引，但电影ID从1开始。当初，让咱们打印出这些电影属性，以便咱们看到它们，这些属性咱们筹备好找到相似的电影。

第一步是从其余电影中减去这部电影的属性。这一行代码从矩阵的每一行中别离减去以后的电影特色。这给了咱们以后电影和数据库中其余电影之间的分数差别。您也能够应用四个循环来一次减去一个电影，但应用numpy，咱们能够在一行代码中实现。第二步是取咱们在第一步计算出的差值的绝对值，numpy的ABS函数给咱们绝对值，这只是确保任何正数进去都是正值。接下来，咱们将每个电影的15个独自的属性差别合并为一个电影的总差别分数。numpy的总和性能将做到这一点。咱们还会传入拜访权限等于一个来通知numpy总结每行中的所有数字，并为每行产生一个独自的总和。在这一点上，咱们实现了计算。咱们只是将计算得分保留回电影列表中，以便咱们可能打印每部电影的名称。在第五步中，咱们依照咱们计算的差别分数对电影列表进行排序，以便在列表中首先显示起码的不同电影。这里pandas提供了一个不便的排序值函数。最初，在第六步中，咱们打印排序列表中的前五个电影。这些是与以后电影最类似的电影。

好的，咱们来运行这个程序。咱们能够看到咱们为这部电影计算的15个属性。这是咱们发现的五个最类似的电影。第一部电影是用户曾经看过的电影。接下来的四部电影是咱们向用户展现的相似我的项目。依据他们的头衔，这些电影看起来可能十分类似。他们仿佛都是对于立功和考察的电影。续集，大城市法官三，都在名单上。这是用户可能也会感兴趣的电影。您能够更改电影ID并再次运行该程序，以查看与其余电影相似的内容。

本文摘选《 python机器学习：举荐零碎实现（以矩阵合成来协同过滤） 》，点击“浏览原文”获取全文残缺材料。

点击题目查阅往期内容

R语言NLP案例：LDA主题文本开掘优惠券举荐网站数据
scrapy爬虫框架和selenium的应用：对优惠券举荐网站数据LDA文本开掘
电商行业智能举荐引擎的摸索
用r语言对优惠券举荐网站数据LDA文本开掘
scrapy爬虫框架和selenium的应用：对优惠券举荐网站数据LDA文本开掘
Python应用矩阵合成法找到相似的音乐
Python用PyMC3实现贝叶斯线性回归模型
python在Scikit-learn中用决策树和随机森林预测NBA获胜者
python主题LDA建模和t-SNE可视化
python用线性回归预测股票价格
Python中利用长短期记忆模型LSTM进行工夫序列预测剖析 – 预测电力耗费数据
Python Monte Carlo K-Means聚类实战钻研
Python基于粒子群优化的投资组合优化钻研

关于数据挖掘:python推荐系统实现矩阵分解来协同过滤附代码数据

原文链接：http://tecdat.cn/?p=10911

1. 用户和产品的潜在特色

2. 编写举荐零碎

3. 矩阵合成工作原理

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据挖掘:python推荐系统实现矩阵分解来协同过滤附代码数据

原文链接：http://tecdat.cn/?p=10911

1. 用户和产品的潜在特色

2. 编写举荐零碎

3. 矩阵合成工作原理

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复