乐趣区

关于推荐系统:推荐系统学习笔记一

举荐零碎的由来,信息过载

互联网的呈现和遍及给用户带来了大量的信息,满足了用户在信息时代对信息的需要,但随着网络的迅速倒退而带来的网上信息量的大幅增长,使得用户在面对大量信息时无奈从中取得对本人真正有用的那局部信息,对信息的应用效率反而升高了,这就是所谓的信息超载(information overload)问题。

在这样的状况下,无论是信息消费者还是信息生产者都遇到了很大的挑战:作为信息消费者,如何从大量信息中找到本人感兴趣的信息是一件十分艰难的事件;作为信息生产者,如何让本人生产的信息怀才不遇,受到宽广用户的关注,也是一件十分艰难的事件。

为了解决信息过载的问题,曾经有有数科学家和工程师提出了很多蠢才的解决方案,按工夫先后,办法为以下三类

  • 分类目录
  • 搜索引擎
  • 举荐零碎


    分类目录

    定义

    分类目录是将网站信息系统地分类整理,提供一个按类别编排的网站目录,在每类中,排列着属于这一类别的网站站名、网址链接、内容提要,以及子分类目录,能够在分类目录中逐级浏览寻找相干的网站。

    作用

    对网页进行分类,不便查找和检索

    应用条件

    须要当时明确查找信息所属分类,如分类不清则无奈找到相应后果

    相干公司

    雅虎
    hao123

    智图期刊导航


    搜索引擎

    定义

    搜索引擎是指依据肯定的策略、使用特定的计算机程序从互联网上采集信息,在对信息进行组织和解决后,为用户提供检索服务,将检索的相干信息展现给用户的零碎。

    作用

    进步人们获取收集信息的速度,为人们提供更好的网络应用环境。

    应用条件

    明确要查找的信息,晓得关键词,查找什么就搜寻什么,当用户无奈找到精确形容本人需要的关键词时,搜索引擎就无能为力了

    相干公司

    谷歌

    百度

    智图搜寻


    举荐零碎

    常见的举荐零碎

    淘宝

    京东

    今日头条
    抖音

    定义

    举荐零碎是一种信息过滤零碎,用于预测用户对物品的“评分”或“偏好”,把那些最终会在用户(User)和物品(Item)之间产生的连贯提前找进去。

    作用

    在用户没有明确需要时,本源以往的记录,从大量信息中筛选用户最感兴趣的信息进行出现。

    应用条件

    举荐零碎须要曾经存在的连贯,从已有的连贯去预测将来的连贯。


深刻理解举荐零碎

什么是连贯

这里说一下“连贯”这个词,这个词含意十分宽泛,但凡可能产生关系的都是连贯,比方用户对物品做出了一个行为,或者用户的某些属性和物品的属性一样等等,有关系就是连贯。
为什么这么说呢?这是基于这么一个事实:万事万物有相互连接的大趋势,比方人和人偏向于有更多社会连贯,于是有了各种社交产品;比方人和商品有越来越多的生产连贯,于是有了各种电商产品;人和资讯有越来越多的浏览连贯,于是有了信息流产品。
这还只是纯数字世界,随着各种物理实体智能化趋势越来越显著,万物互联还会进一步强化。世界是一个数字化的大网,但外面只有两类节点:人和其余。人是互联的终极意义,“其余”统称为物品,物品可能是人、资讯、消费品、服务等。举荐零碎就是要在这张微小的网中,一直去发现那些很可能会和人产生连贯的另一类物品节点,让它们和用户真的建设连贯。


举荐零碎常见分类

以看电影为例,一般来说,咱们在想看电影又不晓得看什么时,可能会用以下形式决定最终看什么电影。

  1. 向敌人征询。咱们兴许会关上聊天工具,找几个常常看电影的好敌人,问问他们有没有什么电影能够举荐。甚至,咱们能够关上微博,发表一句“我要看电影”,而后期待热心人举荐电影。这种形式在举荐零碎中称为社会化举荐(social recommendation),即让好友给本人举荐物品。
  2. 咱们个别都有喜爱的演员和导演,有些人可能会关上搜索引擎,输出本人喜爱的演员名,而后看看返回后果中还有什么电影是本人没有看过的。比方我十分喜爱周星驰的电影,于是就去豆瓣搜寻周星驰,发现他早年的一部电影我还没看过,于是就会看一看。这种形式是寻找和本人之前看过的电影在内容上类似的电影。举荐零碎能够将上述过程自动化,通过剖析用户已经看过的电影找到用户喜爱的演员和导演,而后给用户举荐这些演员或者导演的其余电影。这种举荐形式在举荐零碎中称为基于内容的举荐(content-based filtering)。
  3. 咱们还可能查看排行榜,比方驰名的 IMDB 电影排行榜,看看他人都在看什么电影,他人都喜爱什么电影,而后找一部广受好评的电影观看。这种形式能够进一步扩大:如果能找到和本人历史趣味类似的一群用户,看看他们最近在看什么电影,那么后果可能比宽泛的热门排行榜更能合乎本人的趣味。这种形式称为基于协同过滤(collaborative filtering)的举荐


    什么是好的举荐零碎

    一个残缺的举荐零碎个别存在 3 个参与方(如下图所示):用户、物品提供者和提供举荐零碎的网站。

以图书举荐为例,首先,举荐零碎须要满足用户的需要,给用户举荐那些令他们感兴趣的图书。
其次,举荐零碎要让各出版社的书都可能被举荐给对其感兴趣的用户,而不是只举荐几个大型出版社的书。
最初,好的举荐零碎设计,可能让举荐零碎自身收集到高质量的用户反馈,不断完善举荐的品质,减少
用户和网站的交互,进步网站的支出。因而在评测一个举荐算法时,须要同时思考三方的利益,一个好的举荐零碎是可能令三方共赢的零碎。

然而传统的举荐零碎大都是起一个“精益求精”的作用,个别很少会将其作为外围性能来承载产品。因为举荐零碎通常的指标不是帮用户找到相干内容,而是心愿用户生产内容,生产越多越好,于是业界逐步演变出一个比拟畸形的意识,“好的举荐零碎应该变成一个工夫杀手,让用户走进去就不想进去”才是最好的。


搭建举荐零碎须要怎么的团队

一个举荐零碎复杂度没有下限,然而有最低标准,所以上面在估算举荐零碎团队规模时,依照上限来预计,照这个形式建设的团队就叫做“有上限的团队”。
这里先定义团队的角色,既然是组建“有上限团队”,当然依照能省则省的准则。

  • 算法工程师,承当的是数据科学家和机器学习工程师的双重职责,主要职责是荡涤数据,训练离线举荐模型,开发算法接口,评估指标。
  • 后端开发工程师,承当算法之外的开发工作,负责调用举荐 RPC 服务,开发必要的过滤逻辑,API 接口的开发,填充具体字段等。
  • 运维工程师,负责数据库的搭建保护,日志的收集,在线零碎的高可用回收用户反馈数据,对立存储日志数据。


本文依据 刑无刀的举荐零碎三十六式与项亮的举荐零碎实战 整顿而来

退出移动版