推荐系统

jiezi

6 年前

推荐系统
“推荐系统”第一次出现在大众视野源自美国学者 Resnick & Varian，其给出得到定义一直沿用至今，电子商务推荐系统是指利用电子商务网站向客户提供商品信息和建议，帮助客户决定应该购买什么产品，模拟销售人员帮助客户完成购买过程。为什么定义要加上电子商务这个领域范围的限制，难道说只有电子商务领域才有推荐系统。我的理解是，推荐系统设计的初衷是解决信息过载问题，帮助用户在茫茫信息中找到对自己有价值的信息，大大节约时间和精力。而电子商务领域在如今是一个非常火的领域，如阿里巴巴，京东商城，交易信息每天都在产生，数据量大是电子商务领域显著的特点，如何利用这些信息挖掘潜在购买力推动着电子商务企业大胆尝试做这件事。推荐系统如网易云音乐网站、抖音小视频、今日头条资讯 APP 等也都具有数据量大的特点，所以推荐系统在音乐、视频、资讯等领域也很常见。
个性化推荐系统
传统意义上的推荐系统还不是真正的个性化推荐系统，顾名思义，个性化推荐系统简单理解就是让推荐系统拥有个性化特征，就像推荐系统就是为你本人定制的，清楚你的喜好，实时为你提供推荐服务。而要做到这一点，你的所有历史记录就是个性化推荐系统能利用的信息，它认为你的行为历史代表了你在某个时间点或者时间段的喜好或者需求，恰当地利用这些信息可以给你意想不到的推荐服务。
搜索引擎，广告系统
个性化推荐系统这么强，以致于许多人已经对它产生依赖性，就像手机成了不可或缺的工具。那推荐系统出现之前又是谁在为大家服务呢？

第一个就是搜索引擎，代表作品就是百度浏览器和谷歌浏览器，以及 bing 搜索，360 浏览器等。搜索引擎的出现也是为了解决信息过载，浩如烟海的信息，不仅仅局限在某个领域了，只需要通过几个关键词就可以大致准确地为你查询到相关信息。但是它不同于推荐系统，搜索引擎旨在用户的主动性，用户主动搜索自己想要的东西，用户的需求十分明确，但是缺乏个性化，你搜索出的东西可能是大众需求，不代表个人兴趣。而推荐系统旨在用户的被动性，推荐系统占主动，在某个合适的时间为你“量身”推荐你想要的东西，这时用户的兴趣是模糊的，如我想听好听的歌，但是不知道具体哪一首，这时候推荐系统的优势就显露出来了。
第二个是广告系统，好的广告能给企业带来意想不到的财富，差的广告让人所诟病，甚至葬送公司的美好前程。广告系统也是将合适的信息推荐给合适的受众，但是商业化比较强，广告系统一般包含广告主，平台和用户三部分，平台按照广告投递和相应或者成功交易进行计费。广告系统更准确地说对一类人进行推荐服务，如高考培训机构广告投放到学生视野中，健身广告投放到健身社区等。而个性化推荐系统就是针对个人进行“定制”，更具针对性和有效性。

推荐系统的发展
如何恰当利用用户历史信息是一个关系到推荐效率的重要举措。推荐系统早期是基于内容的推荐系统，比如我买了一件衣服，推荐系统会根据我买的衣服提取衣服特征，比如颜色，材料，品牌等等，然后根据这些信息推荐一件大部分具备这些信息的相似衣服，推荐系统认为既然你喜欢这件衣服，那也可能喜欢与这件衣服相似的衣服。这种算法也遭受了很大的挑战，如提取信息的难度是巨大的，视频信息的提取就是个代表，视频信息量大，时间长，待提取的特征很多，这就给推荐造成了巨大的难度。再者，提取信息这件事需要专业领域的人去做，门外汉始终没有专业领域的人提取信息准确有效，所以也会给推荐带来挑战。为了减少这种挑战，学者转而关注用户行为，提出基于协同过滤的推荐系统，研究用户行为之间和商品之间的潜在相似性，举个例子，用户 A 买了一件漂亮裙子，恰好用户 B 也买了同样的裙子，那么推荐系统认为用户 A 和 B 具有一定相似性，那么 B 购买的其它裙子 A 有一定可能也会喜欢，因此推荐系统就会推荐用户 B 购买过而用户 A 没有购买过的衣服。可以看到基于协同过滤的推荐系统并没有考虑裙子的任何属性，只关注用户的购买行为，这就绕开了提取物品或用户信息的瓶颈。基于协同过滤的推荐系统也是如今研究比较广泛的算法。
推荐系统的挑战
这部分内容来自 Linyuan Lü、Matúš Medo 的论文 Recommender Systems

数据稀疏性：一个网站可能存在许多用户和许多项目，用户对电影的喜好通过评分来反应，高分代表喜欢，低分相对来说不那么喜欢。但是一个用户对电影网站上的电影有效评价个数在少数，绝大部分电影并未评分，所以如果将用户和项目视作一个矩阵的话，这个矩阵是稀疏的。
可扩展性：计算复杂度，时间复杂度，空间度复杂度
冷启动：对于一个新用户和新项目来说，没有任何历史纪录对于推荐系统的确是个挑战
精确性和多样性：当任务是推荐可能被特定用户欣赏的物品时，通常最有效的方法是推荐受欢迎和评价较高的物品。然而，这种推荐对用户来说价值很小，因为没有推荐系统，热门对象很容易找到（通常很难避免）。
易受攻击：由于推荐系统在电子商务应用中的重要性，它很可能成为恶意攻击的目标，试图不公正地促进或抑制某些项目。有大量的工具可以防止这种行为，从阻止恶意评估进入系统到复杂的抵抗推荐技术。然而，这并不是一个容易的任务，因为随着防范工具的开发，攻击者的策略也越来越先进。例如，Burke 等人介绍了八种攻击策略，进一步分为四类：基本攻击、低认知攻击、核攻击和知情攻击。
时间因素：虽然实际用户的兴趣具有广泛的不同时间范围（例如，与计划旅行相关的短期兴趣和与居住地点或政治偏好相关的长期兴趣），但大多数推荐算法忽略了评估的时间戳。老观点的价值是否和如何随时间衰减，以及用户评价和项目相关性中的典型临时模式是什么，这是一个正在进行的研究领域。
评估方式：虽然我们有很多不同的度量标准，但是如何选择最适合给定情况和任务的度量标准仍然是一个悬而未决的问题。不同推荐算法的比较也存在问题，因为不同的算法可能只解决不同的任务。最后，给定推荐系统的总体用户体验，包括用户对推荐的满意程度和用户对系统的信任，难以在“在线”评估中衡量。因此，经验用户研究仍然是推荐系统值得欢迎的反馈来源。
用户界面：有研究表明，为了方便用户接受建议，建议必须是透明的。当明确为什么向用户推荐某一特定项目时，用户会表示赞赏。另一个问题是，由于潜在有趣项目的列表可能很长，因此需要以简单的方式呈现，并且应该易于浏览，浏览不同的建议，这些建议通常通过不同的方法获得。