用户画像
用户画像到底是什么?它是对用户信息的向量化示意,就是 User Profile,俗称“用户画像”。用户画像不是举荐零碎的目标,而是在构建举荐零碎的过程中产生的一个关键环节的副产品。构建用户画像须要上面两个步骤。
1 结构化文本
咱们拿到的文本,经常是自然语言形容的,用行话说,就是“非结构化”的,然而计算机在解决时,只能应用结构化的数据索引,检索,而后向量化后再计算;所以剖析文本,就是为了将非结构化的数据结构化,好比是将模拟信号数字化一样,只有这样能力送入计算机,持续计算。
从物品端的文本信息,咱们能够利用成熟的 NLP 算法剖析失去的信息有上面几种。
- 关键词提取:最根底的标签起源,也为其余文本剖析提供根底数据,罕用 TF-IDF 和 TextRank。
- 内容分类:将文本依照分类体系分类,用分类来表白较粗粒度的结构化信息。常用工具 FastText
- 主题模型:从大量已有文本中学习主题向量,而后再预测新的文本在各个主题上的概率分布状况,也很实用,其实这也是一种聚类思维,主题向量也不是标签模式,也是用户画像的罕用形成。罕用的开源的 LDA 训练工具有 Gensim,PLDA 等
- 嵌入:“嵌入”也叫作 Embedding,从词到篇章,无不能够学习这种嵌入表白。嵌入表白是为了挖掘出字面意思之下的语义信息,并且用无限的维度表达出来。
2 标签抉择
对物品端的文本进行结构化,失去了诸如标签(关键词、分类等)、主题、词嵌入向量。接下来就是第二步:把物品的结构化信息给用户。一种简略粗犷的方法是间接把用户产生过行为的物品标签累积在一起。
内容举荐算法
对于基于内容的举荐零碎,最简略的举荐算法当然是计算类似度即可,用户的画像内容就示意为稠密的向量,同时内容端也有对应的稠密向量,两者之间计算余弦类似度,依据类似度对举荐物品排序。
余弦类似度
基于用户的协同过滤
背地的思维
你有没有过这种感觉,你遇到一个人,你发现他喜爱的书、喜爱的电影也基本上都是你喜爱的,从此以后,你就想老是想问他:还有什么好举荐的,最近又看了什么书,最近又看了什么电影?这个感觉十分地天然间接,它就是基于用户的协同过滤背地思维。具体来说就是:先依据历史消费行为帮你找到一群和你口味很类似的用户;而后依据这些和你很类似的用户再生产了什么新的、你没有见过的物品,都能够举荐给你。
解决步骤
1 筹备用户向量
实践上能够给每一个用户失去一个向量。为什么要说是“实践上”呢?因为失去向量的前提是:用户须要在咱们的产品里有行为数据,否则就得不到这个向量。这个向量有这么三个特点:
- 向量的维度就是物品的个数
- 向量是稠密的,也就是说并不是每个维度上都有数值,起因当然很简略,这个用户并不是生产过所有物品
- 向量维度上的取值能够是简略的 0 或者 1,也就是布尔值,1 示意浏览过,0 示意没有。
2 用每一个用户的向量,两两计算用户之间的类似度,设定一个类似度阈值或者设定一个最大数量,为每个用户保留与其最类似的用户。
这里咱们同样采纳余弦类似度进行计算
3 为每一个用户产生举荐后果。
把和他类似的用户们浏览过的物品汇总起来,去掉用户本人曾经看过的物品,剩下的排序输入就是举荐后果。具体的汇总形式咱们用一个公式来示意。
等号右边就是计算一个物品 i 和一个用户 u 的匹配分数,等号左边是这个分数的计算过程,分母是把和用户 u 类似的 n 个用户的类似度加起来,分子是把这 n 个用户各自对物品 i 的态度,依照类似度加权求和。这里的态度最简略就是 0 或者 1,1 示意喜爱过,0 示意没有,如果是评分,则能够是 0 到 5 的取值。整个公式就是类似用户们的态度加权平均值。
本文依据 刑无刀的举荐零碎三十六式 整顿而来