乐趣区

关于后端:通熟易懂详解推荐系统

本文介绍举荐零碎基础知识,涵盖以下内容

  • 什么是举荐零碎?
  • 应用举荐零碎的益处
  • 举荐零碎的构建流程
  • 举荐零碎相干模型
  • 举荐零碎开发工具(Python 工具库)
  • 构建举荐零碎的挑战
  • 举荐零碎的价值

1. 什么是举荐零碎

举荐零碎通过预测用户对物品的‘爱好’,举荐给用户商品或者服务,例如:短视频、音乐、图书、服装、新闻等,从而能够晋升用户的体检。

举个例子,你在电商零碎中搜寻“鸭舌帽”,会呈现很多店铺的相干举荐,以便用户的抉择,从而进步商品的购买率。

2. 应用举荐零碎的益处

应用举荐零碎的益处在于可能疾速及无效的解决用户的需要,为用户提供有价值的相干信息,从而可能将被动的服务变为更加被动的服务。

因为大数据的暴发,网上信息资源的过载,利用举荐零碎可能疾速便捷的为用户删选出最为感兴趣的货色,当用户身处于一个生疏的畛域时,同时也为用户提供一些倡议,帮忙用户进行抉择,成为用户的私人助理。

3. 举荐零碎的构建流程

3.1 需要剖析

首先须要明确举荐零碎的具体的业务指标是什么,例如应用举荐零碎进步商品的销售量以及晋升用户的点击率。

3.2 数据筹备

通过需要剖析,进行数据收集剖析,如用户的相干行为数据。

3.3 举荐模型

利用收集到的数据,通过举荐模型从而得出举荐商品的后果。

3.4 线下测试

失去的模型,在历史的数据中进行测试,评估其预测的好坏。

3.5 线上测试

如失去的举荐模型在进行评估后发现其成果不错,则能够在平台中上线进行应用举荐零碎。

4. 举荐零碎相干模型

举荐零碎罕用策略有:

4.1 基于内容的举荐

举荐零碎是通过技术手段将“标的物”与人关联起来,“标的物”蕴含很多本人的属性,用户通过与“标的物”的交互会产生行为日志,这些行为日志能够作为掂量用户对“标的物”偏好的标签,通过这些偏好标签为用户做举荐就是基于内容的举荐算法。

拿视频举荐来说,视频有题目、国别、年代、演职员、标签等信息,用户以前看过的视频,就代表用户对这些视频有趣味,比方用户偏好恐怖,科幻类的电影,咱们就能够依据这些趣味特色为用户举荐恐怖科幻类的电影。

4.2 协同过滤

用户在产品上的交互行为为用户留下了标记,咱们能够利用“物以类聚,人以群分”的奢侈思维来为用户提供个性化举荐。

具体来说,「“人以群分”」就是找到与用户趣味雷同的用户 (有过相似的行为),将这些趣味雷同的用户浏览过物品举荐给用户,这就是基于用户的协同过滤算法。「“物以类聚”」 就是如果有很多用户都对某两个物品有类似的偏好,阐明这两个物品是“类似”的,咱们能够通过举荐用户喜爱过的物品类似的物品这种形式为用户提供个性化举荐,这就是基于物品的协同过滤举荐算法。

4.3 基于模型的举荐

基于用户行为记录,用户相干信息(年龄,性别,地区,生产习惯等),物品相干信息,构建算法模型,预测用户对物品的偏好,罕用的算法有 logistic 回归,矩阵合成等。随着当初深度学习技术的倒退,目前有很多深度学习相干的算法落地到了举荐零碎上,产生了很好的成果。

4.4 基于社交关系的举荐

咱们在日常生活中常常为他人或者要求他人给咱们举荐书籍、餐厅、电影等,这种举荐形式往往成果较好,大家会更容易接受。微信“看一看”模块中的“在看”就是通过将你的微信好友看过的文章举荐给你。

这些举荐算法中,基于 「内容的举荐」「协同过滤举荐」是最罕用的举荐算法,实现绝对简略,成果也很不错,在工业界失去了大规模的利用。

说到具体算法的话,目前举荐算法次要为:分类算法、聚类算法、关联规定算法等。

其中 「分类算法模型」 次要有如下几种:

(1)KNN 模型
(2)决策树模型
(3)逻辑斯蒂回归模型
(4)贝叶斯模型
(5)随机森林模型
(6)梯度晋升树模型
(7)反对向量机模型
(8)神经网络模型
(9)XGBoost 模型
(10)LightGBM 模型

「聚类算法模型」有:

(1)K-Means 模型
(2)DBSCAN 模型
(3)高斯混合模型
(4)档次聚类模型

「关联规定算法模型」有:

(1)Apriori 算法模型
(2)FP-Growth 算法模型

5. 举荐零碎开发工具

一个残缺的举荐零碎开发模型,在数据筹备、整合阶段次要波及的 Python 工具库有 Numpy、Pandas、Scipy 对数据进行读取、荡涤、剖析,在数据分析阶段能够通过 Matplotlib、Seaborn、PyEcharts 进行可视化剖析,在模型训练以及评估阶段则能够通过 Scikit-Learn、TensorFlow、PyTorch、Keras、XGBoost、LightGBM 工具进行模型的剖析与建设。

6. 构建举荐零碎的挑战

举荐零碎是解决大规模用户场景下,大量信息的精准散发的问题,举荐零碎解决的问题看起来很简略奢侈,那么是不是能够非常容易的构建一个成果很好的举荐零碎呢?

答案是否定的,要想构建一个高效的有价值的举荐零碎是一件很艰难的事件。这里简略说一下构建举荐零碎可能遇到的艰难、阻碍,以及构建好的举荐零碎的挑战。

「首先不是任何一个产品都须要举荐的」,你提供的“标的物”必须足够多,用户无奈通过浏览完所有“标的物”来做抉择,这时才有举荐的必要,比方苹果官网,卖的货色是很少的几个品类,每个品类也不多,加起来也没有多少,这时用户能够间接浏览所有产品找本人喜爱的也很不便。

「另外,举荐零碎是一个比拟大的系统工程」,无效的落地须要相当多的资源投入,所以须要领导的大力支持,并且领导要可能意识到举荐算法的价值。为什么今日头条能够从传统的新闻客户端怀才不遇,正是意识到了举荐的价值,整个公司从创建之初就以算法为外围,围绕举荐零碎构建好的产品体验。

「最初从技术工程实现的角度说说构建举荐零碎面临的挑战」,具体而言构建好的举荐零碎面临如下的挑战:

  1. 「举荐零碎举荐精准度的问题」:这须要通过构建好的举荐算法来实现,同时要有足够多的用户行为数据来学习算法模型,数据预处理的品质也对后果有较大影响,当初基于深度学习的举荐零碎能够达到很好的成果;
  2. 「冷启动问题」:新用户、新物品没有相干行为信息,这时零碎怎么给用户举荐,怎么将新物品举荐进来,在举荐零碎落地过程中都须要做联合业务场景的非凡解决能力达到好的用户体验;
  3. 如果你的产品有大量用户拜访,怎么构建一套高效的举荐零碎,满足高并发拜访,为用户提供 「稳固,疾速,高效的举荐服务」 也是一个挑战;
  4. 「数据缺失的问题」:事实场景中肯定存在用户或者物品的信息不欠缺,或者局部信息有误,这些也是在构建举荐算法模型过程中必须思考和解决的问题;
  5. 「怎么解决非结构化的信息」:用户和物品相干的信息有可能是非结构化的信息,比方图片,视频,音频,文本等,怎么高效的利用这些信息,为举荐模型提供更多信息输出,随着深度学习在举荐零碎中大规模使用,这类问题能够失去较好的解决;
  6. 「一些乐音及歹意攻打也会产生大量垃圾数据」,对更好的做举荐产生很大的烦扰,怎么很好的保障训练数据的品质,这是 ETL 和特色工程须要解决的重要问题;
  7. 「大规模计算与存储」:大量的用户和大量的物品,对数据处理和计算造成很大的压力,须要采纳分布式技术 (如 Hadoop,Spark 等) 来做数据存储,解决,计算等,所以要很好的落地举荐零碎须要企业构建一套高效的大数据分析解决平台;
  8. 为了给用户提供实时的个性化举荐(现在日头条的新闻举荐等),须要实时收集解决用户的反馈,做到更及时精准的举荐,为用户提供强感知的服务。对大规模用户做到「实时响应」,对算法,计算,解决有相当大的挑战。
  9. 「用户交互问题」:举荐零碎通过用户与产品的交互来触达用户,所以好的 UI 及交互体验对举荐零碎施展真正的价值起到十分要害的作用,有时好的 UI 和交互体验甚至比好的算法更管用;
  10. 「怎么评估举荐算法的价值」:举荐零碎怎么服务于业务,怎么掂量举荐零碎的价值产出,怎么为举荐零碎制订业务指标,通过指标晋升举荐零碎成果的同时促成业务倒退?这些问题都是摆在举荐零碎开发人员,甚至是公司管理者背后的重要问题,只有很好的度量出举荐零碎的价值,能力更好的优化举荐零碎,施展举荐零碎的价值。

下面说了这么多构建好的举荐零碎须要克服的艰难和阻碍,然而举荐零碎是十分有价值的,值得咱们花这么多精力和工夫去构建一套好的举荐零碎。举荐零碎的极大价值也驱使越来越多的公司将举荐零碎作为产品的标配。

7. 举荐零碎的价值

以后举荐零碎技术是互联网公司的标配技术,因为它很好的解决“标的物”提供放,平台方,用户三方的需要。本节具体说一下举荐零碎的价值,它的价值次要体现在四个方面。

「从用户角度说」,举荐零碎能够让用户在纷纷杂乱的海量信息中疾速找到本人感兴趣的信息,节俭了用户的工夫,特地是当用户在应用某个互联网产品时,不经意中发现平台给本人举荐了特地喜爱的货色时,那种惊喜油然而生,从而极大晋升了用户的应用体验。

「从平台的角度看」,举荐了一本书给用户,用户发现这本书正好是本人须要的,立刻就买下来了,举荐一首付费音乐给用户,用户特地喜爱,毫不犹豫就付费了。精准的举荐,也能减少用户对平台的粘性,让用户喜爱上你的平台。平台通过售卖物品的分成及广告投放能够获取丰富的利润。

「从物品提供商的角度看」,如果平台可能将提供商的物品举荐给喜爱的用户,晋升物品被售卖进来的概率,这样商品能够卖得更多更好,晋升了供应商的销量,从而为供应商赚取极大的收益。

另外,平台精准的将物品 (实物物品,如冰箱,电视机等) 举荐进来并被用户购买,从侧面也升高了物品的周转工夫,缩小了库存积压,对于 「社会资源的节俭和无效利用」 也是大有益处的。

硅谷互联网教父凯文·凯利在《必然》这本畅销书上提到了“过滤”这一大趋势,举荐零碎就是最好的提供过滤能力的技术之一,置信随着互联网的深刻倒退,举荐零碎将会施展越来越重要的价值!

本文由 mdnice 多平台公布

退出移动版