共计 2253 个字符,预计需要花费 6 分钟才能阅读完成。
一. 举荐零碎简介
们逐步从信息匮乏的时代走入了信息过载, 举荐零碎就是 解决信息消费者,如何从大量信息中找到本人感兴趣的信息是一件十分艰难的事件, 作为信息生产者,如何让本人生产的信息怀才不遇这一矛盾的重要工具, 举荐零碎的工作就是分割用户和信息,一方面帮忙用户发现对本人有价值的信息
1. 解决信息过载的计划
- 分类目录
笼罩大量热门⽹站。Hao123 Yahoo - 索引擎
须要用户被动提供精确的关键词, 通过搜索词明确需要。Google Baidu - 举荐零碎
不须要用户提供明确的需要,而是通过剖析用户的历史行为给用户的趣味建模, 给⽤户举荐能
够满⾜他们趣味和需要的信息。 举荐零碎和搜索引擎比照
搜寻 举荐 行为形式 被动 被动 用意 明确 含糊 个性化 弱 强 流量散布 马太效应 长尾效应 指标 疾速满足 继续服务 评估指标 扼要 简单 马太效应:
即所谓强人更强,弱者更弱的效应
长尾效应:
从需要的角度来看,大多数的需要会集中在头部 ,而这部分咱们能够称之为风行,而 散布在尾部的需要是个性化的 ,零散的小量的需要。而这部分差异化的、大量的需要会在需要曲线下面造成一条长长的“尾巴”,而所谓长尾效应就在于它的数量上,将 所有非风行的市场累加起来就会造成一个比风行市场还大的市场。2. 什么是举荐零碎
没有明确需要的用户拜访了咱们的服务, 且服务的物品对用户形成了 信息过载, 零碎通过剖析用户历史行为对物品进行排序, 并将排在后面的物品展现给用户, 这样的零碎就是举荐零碎
3. 举荐零碎的作用
- 高效连贯用户和物品, 发现长尾商品
- 留住用户和内容生产者, 实现商业指标
4. 个性化举荐的两个条件
- 存在信息过载
- 用户大部分时候没有特地明确的需要
5. 举荐系统分类
- 社会化举荐(即让好友给本人举荐物品)
- 基于 内容的举荐(通过剖析用户已经看过的电影找到用户喜爱的演员和导演)
- 基于 协同过滤(找到和本人历史趣味类似的一群用户,看看他们最近在看什么电影)
- 基于 风行度的举荐 查看票房排行榜
6. 举荐零碎和 Web 我的项目的区别
- web 我的项目: 解决简单逻辑 解决高并发 实现高可用 为用户提供稳固服务, 构建一个稳固的信息流通的服务, 对后果有确定预期
- 举荐零碎: 谋求指标增长, 留存率 / 浏览工夫 /GMV (Gross Merchandise Volume 电商网站成交金额)/ 视频网站 VV (Video View), 后果是概率问题
7. 举荐零碎的应用领域
1. 电子商务
电子商务网站是个性化举荐零碎的一大应用领域,。驰名的电子商务网站亚马逊是个性化举荐零碎的踊跃利用者和推广者
2. 电影和视频网站
该畛域胜利应用举荐零碎的一家公司就是 Netflix
3. 个性化音乐电台
- Pandora(做音乐基因工程的我的项目, 次要基于内容)
次要 基于内容, 对歌曲的不同个性(比方旋律、节 12 第 1 章 好的举荐零碎 奏、编曲和歌词等)进行标注,这些标注被称为音乐的基因,Pandora 会依据专家标注的基因计算歌曲的类似度,并给用户举荐和他之前喜爱的音乐在基因上类似的其余音乐 - Last.fm
记录了所有用户的听歌记录以及用户对歌曲的反馈,在这一根底上计算出不同用户在歌曲上的爱好类似度,从而给用户举荐和他有类似听歌喜好的其余 用户喜爱的歌曲。Last.fm 没有应用专家标注,而是次要利用用户行为计算歌曲的类似度 - 豆瓣电台
4. 社交网络
互联网最激动人心的产品莫过于以 Facebook 和 Twitter 为代表的社交网络应用
5. 个性化浏览
Google Reader, 鲜果网,Zite 和 Flipboard(挪动设施)
6. 基于地位的服务
在中关村晃荡时,肚子饿了,关上手机,发现下面给你举荐了几家中关村不错的饭馆,价格、环境、服务、口味都如你所愿,基于地位给用户举荐离他近的且他感兴趣的服务,用户就更有可能去生产
7. 个性化邮件
通过剖析用户浏览邮件的历史行为和习惯对新邮件进行从新排序,从而进步用户的工作效率
8 个性化广告
即如何将广告投放给它的潜在客户群, 个性化广告投放和广义个性化举荐的区别是,个性化举荐着重于帮忙用户找到可能令他们感兴趣的物品,而广告举荐着重于帮忙广告找到可能对它们感兴趣的用户
二. 举荐零碎的架构
1. 举荐零碎的因素
- UI 和 UE(前端界面)
- 数据 (Lambda 架构)
- 业务知识
- 举荐算法
2. 举荐零碎架构
2.1 举荐零碎整体架构
2.2 大数据 Lambda 架构
由 Twitter 工程师 Nathan Marz(storm 我的项目发起人)提出,Lambda 零碎架构提供了一个联合实时数据和 Hadoop 事后计算的数据环境和混合平台, 提供一个实时的数据视图
2.2.1 分层架构
- 批处理层
数据不可变, 可进行任何计算, 可程度扩大, 高提早 (几分钟~ 几小时), 包含组件: 日志收集 Flume,分布式存储 Hadoop hdfs,分布式计算 Hadoop MapReduce & spark,视图存储数据库 - 实时处理层
流式解决, 继续计算, 存储和剖析某个窗口期内的数据, 包含组件:实时数据收集 flume & kafka,实时数据分析 spark streaming/storm/flink - 服务层
次要工作是将曾经计算好的数据传递给前端申请
2.3 举荐算法架构
- 召回阶段 (海选)
召回决定了最终举荐后果的天花板, 罕用算法:协同过滤 (基于用户 基于物品的), 基于内容 (依据用户行为总结出本人的偏好, 依据偏好通过文本开掘技术找到内容上类似的商品), 基于隐语义 - 排序阶段
召回决定了最终举荐后果的天花板, 排序迫近这个极限, 决定了最终的举荐成果,CTR 预估 (点击率预估 应用 LR 算法) 预计用户是否会点击某个商品须要用户的点击数据 - 规定
依据既定规定挑选出最优的举荐后果