个性化推荐

专访宜信Bob市场变化驱动产品思维升级

前言：宜信技术人物专访是宜信技术学院推出的系列性专题，我们邀请软件研发行业的优秀技术人，分享自己在软件研发领域的实践经验和前瞻性观点。第四期专访我们邀请到宜信科技中心财富管理产品部负责人Bob，与大家一起聊聊个性化推荐产品功能的设计和B端产品的功能策划方式。拓展阅读：回归架构本质，重新理解微服务|专访宜信开发平台（SIA）负责人梁鑫) 智慧金融时代，大数据和AI如何为业务赋能？|专访宜信AI中台团队负责人王东) 一切技术创新都要以赋能业务为目标|专访宜信数据智能研发部负责人张军) 记者：Bob老师您好，首先请简单介绍一下您目前主要负责的产品，这些产品各自面向的用户及核心价值是什么。 Bob：我在宜信科技中心财富管理产品部，主要负责为我们财富业务的客户和理财师提供线上科技能力和产品，主打的产品是宜信财富APP和宜信理财师APP。宜信财富APP，面向财富客户提供一站式线上财富管理服务，包括“投前”的个性化推荐、线上多方式的投教等；“投中”的纯线上化签约、交易和支付；“投后”的资产分析、净值同步和报告等。宜信理财师APP，面向理财师提供包括客户管理、线上营销、交流互动等在内的一系列线上工具，对他们进行科技赋能，从而帮助他们更好地获取客户、洞察客户、服务客户，最终实现销售业绩的达成。记者：您刚才提到，我们的产品在投前环节提供个性化推荐功能，最近几年随着大数据和AI的兴起，智能化的个性推荐成为产品功能的一种主流趋势。那么就个性化策略设计而言，在产品的前端功能设计和用户体验、后端用户画像数据与产品匹配方面有什么方法和原则？用到了哪些技术？ Bob：首先，在起初的金融产品选品上，我们会基于大数据模型，从宏观市场预判、大类资产配置、产品的历史业绩表现等多维度进行自动化甄别筛选，从而将市场上最优秀的、最符合客户需求的产品快速纳入到选品池中，并定期更新选品池。其次，通过对用户静态和动态的KYC进行智能识别，对每一位客户进行画像，从可投资资产规模、客观风险承受能力等多维度洞察他们的理财需求，并根据客户不同的需求进行聚类和分层。最后，通过机器不停学习过往用户的理财行为，建立智能策略，将最适合的金融产品与适合的客户建立连接，并通过前端界面推送给客户。记者：从用户需求出发设计产品功能和用户体验，涉及到算法、大数据等技术，这就需要比较长的时间来实现产品理想态，产品经理如何协调版本规划和技术实现的节奏？ Bob：罗马帝国不是一天建成的，市场也是瞬息万变的，这就要求产品的更新迭代能更好地应对变化。我们在团队内部引入了敏捷项目管理的思想，将大的产品规划进行需求拆解，先以最快的速度发布一个MVP(Minimum Viable Product,意思是最轻量级的可行性产品)，以快速得到市场检验和用户反馈。接下来根据这些反馈的数据，不断调整产品策略，小步快跑，快速迭代，使产品逐步贴近市场和用户。目前宜信财富APP和宜信理财师APP的版本迭代以一个月为周期，每个月的版本发布称为一趟“发布列车”，每趟“列车”会“装载”哪些产品特性、满足哪些用户需求，在发布的一个多月前就会收集上来，然后进入产品设计和开发阶段，就相当于列车的“预售票”。而宜信财富的微信小程序、H5以及市场活动，迭代周期更短暂，会缩短到一周或半个月。记者：产品验收过程中，对于智能推荐产品的推荐准确度是怎么评估和校验的？ Bob：拿智能推荐产品来举例，产品经理关注的核心指标是从为用户推荐产品到交易完成的转化率。从将产品推荐推送到用户面前，到用户浏览、完成风险评估问卷，再到完成申购、打款等全流程，我们都会去观测并评估每一步转化率是否达到预期，从而有针对性地制定产品改进计划。记者：据悉，您所负责的产品既有面向C端用户（财富业务用户）的，又有面向B端用户（企业理财师）的，请问这两者之间的核心区别是什么？怎么界定一款产品属于B端产品还是属于C端产品？ Bob：在《场景革命》这本书里有这样的一句话：“to B和to C本质上没有什么不同，因为它们都是给人用的”。这句话我非常认可，无论是“B”还是“C”，他们都是用户，都希望使用令人满意的产品。如果一定要说区别，可能是B端产品客群相对固定，而且他们更善于主动找上门来提出需求，产品经理需要根据特定客户去挖掘需求，定制化产品。而对于C端产品，更需要产品经理对用户群体进行宏观把握，并善于运用数据工具来洞察客户的画像，找出主流客群的共性场景和需求。记者：宜信B端产品的设计思路是什么？具体解决了哪些用户需求，从哪些角度考虑功能的设置? Bob：宜信财富服务的B端客户就是我们自己的理财师，他们都是我们公司的员工，相对固定。我们的总体思路是通过提供线上工具，尽可能地帮助每一个人提升工作效率、降低企业成本，最终完成销售绩效，从而提升宜信财富整体业绩。具体包括以下几个方面：获客方面，我们提供微信端获客小程序，让理财师不用和客户见面，通过微信快速分享客户感兴趣的活动、文章、产品等内容，就能引导他们快速实现注册、实名和洞察。洞察客户方面，我们提供AI-KYC的工具，帮助理财师在几秒内快速洞察客户的理财诉求和偏好。管理客户方面，我们提供线上化的客户关系管理工具，帮助理财师更好地管理相关资料，包括：客户画像、生命周期、行为数据等，让理财师在服务客户时更实时，真正做到懂客户所需。与客户互动方面，我们提供一系列在线营销工具，帮助理财师更便捷、专业地为用户提供在线服务，包括：市场活动的邀请管理、资产的分析等。理财师管理方面，我们提供一系列的数字化管理工具，帮助理财师和他的管理者更方便地进行销售管理，包括活动量管理、KPI业绩管理等，大大提升了他们的工作效率。记者：前段时间，产品经理圈有个很有意思的话题：5年后，产品经理会消失。当然有些危言耸听，但是产品圈的焦虑确实存在，您如何看待这个问题？人工智能等新技术的兴起也在推动产品功能的改变，作为产品经理，您认为要如何才能让自己保持对新技术的敏感度，将新技术应用到我们的产品中呢？您认为未来产品经理的发展走向有哪些可能？ Bob：我认为一个行业可能会随着时代的发展而变得兴旺或衰败，可产品经理这个岗位在未来只会越来越重要。首先，无论哪个行业或公司之所以兴旺，毫无疑问，其成功的要素都离不开以用户为中心、以满足好用户的需求为目标，以让用户满意为使命，而产品经理这个岗位就是以用户为中心而生的。其次，产品经理并不是一个劳动密集型岗位，这个岗位的核心价值是通过产品经理自身对行业和用户的洞察，设计出令人惊叹的产品。这里面有对用户情感的洞察，有对产品设计感性的领悟，有对未来的敏锐预判，而这些都是无法用机器来替代的。如何保持一名产品经理的竞争力？ 1）建议产品经理在日常工作和生活中有意识地培养自己对市场的敏感性，无论是近期发生的新闻，还是和朋友的一次聊天，或者生活中遇到的琐事，都有意识去发现其中的市场机会，这是一个持续的过程。 2）多体验市面上出现的新鲜产品，这是获得新的灵感、掌握行业最新动态很有效的方法。这里的新鲜产品不是指老生常谈的微信、百度、今日头条这样的大众产品，而是去挖掘更新鲜有趣的产品与服务，始终保持好奇心。 3）硅谷目前仍然是世界互联网的创新中心，建议多阅读来自硅谷互联网媒体的原汁原味的英文资讯，毕竟很多新的技术和产品模式仍来自于硅谷，可以借鉴和启发思路。

推荐系统协同过滤及其利弊

在上一篇文章中，我们谈到了推荐系统中基于内容的过滤及其利弊，今天我们来看看协同过滤。与基于内容的过滤（CBF）不同，协同过滤（Collaborative Filtering）技术独立于域，适用于无法利用元数据充分描述的项目，如电影、音乐等。协同过滤技术（CF）首先会构建用户项目偏好的数据库，即user-item矩阵，然后，计算用户画像之间的相似性，匹配具有相似的兴趣爱好的用户，完成整个推荐。这些用户获得的推荐项目，是他之前未评级但已被其它相似用户评价过的项目。由CF生成的结果可能是预测，也可能是推荐。预测表示用户i的项目j的预测得分的数值Rij，而推荐是用户最喜欢的前N个项目的列表，如图下所示。协同过滤可以分为两类：1）基于记忆；2）基于模型。协同过滤过程基于记忆在用户的搜索过程中，与他兴趣爱好相似的用户之前评价过的项目扮演着重要角色。一旦匹配到与该用户兴趣爱好相似的其他用户，就可以使用不同的算法，结合该用户和其他用户的兴趣爱好，生成推荐结果。基于记忆的CF可以通过基于用户（user-based）和基于项目（item-based）两种技术实现。基于用户的CF通过比较用户对同一项目的评级来计算用户之间的相似性，然后计算活跃用户对项目的预测评级，并将该预测作为类似的其他用户对项目评级的加权平均值。基于项目的CF则利用项目之间的相似性预测结果：从用户-项目矩阵中检索活跃用户评价的所有项目，建立项目相似性的模型，计算项目之间的相似度，然后选择前K个最相似的项目，计算前K个项目的加权平均值，生成预测。计算物品/用户之间的相似性有很多方法：计算欧几里得距离: 利用欧几里得距离计算相似度时，将相似度定义如下：皮尔逊相关系数：其中sx,sy表示x和y的标准差。 Cosine相似度：Tanimoto系数，也称作Jaccard系数：基于模型基于模型的CF会使用先前的用户评级来建模，提高协同过滤的性能。建模过程可以通过机器学习或数据挖掘来完成。这些技术包括奇异值分解（SVD）、潜在语义分析、回归分析、聚类分析等。关联规则（Association Rule）常见的推荐算法，由字面意思可知，从大量用户行为数据中发现有强关联的规则，提高存储效率和性能。优点是能够从大量行为数据中挖掘出无法直接感受到的规则，往往能给出意想不到的规则组合。缺点是难以进行模型评估，一般通过行业经验判断结果是否合理。关联规则最经典的是购物篮分析，啤酒和尿布就是一个经典案例。运用在早期亚马逊、京东、淘宝等购物推荐场景中，往往表现为“买过这本书的人还买了XXX”，“看了这部电影的人还想看XXX”，其推荐结果包含的个性化信息较低，相对简单粗暴。聚类分析（Clustering Analysis）聚类技术已应用于不同的领域，如模式识别、图像处理、统计数据分析等。聚类就是将数据对象分组成为多个类或者簇 (Cluster)，从而让同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。所以，在很多应用中，一个簇中的数据对象可以被作为一个整体来对待，从而减少计算量或者提高计算质量。人们日常生活的“物以类聚，人以群分”，核心的思想就是聚类。通过聚类，人们能意识到密集和稀疏的区域，发现全局的分布模式，以及数据属性之间的有趣的相互关系。在CF中，聚类分析可以作为其他算法的预处理步骤，简化计算量，提高分析效率。决策树（Decision Tree）机器学习中，决策树是一个预测模型；代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若想要有复数输出，可以建立独立的决策树以处理不同的输出。从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。决策树的简单策略好比公司招聘面试，面试官筛选一个人的简历，如果候选人的各项条件都符合，那么进入初面，初面合格再进入下一轮面试。人工神经网络（Artificial Neural Network）人工神经网络从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。在工程与学术界也经常被简称为“神经网络”或“类神经网络”。神经网络是一种运算模型，由大量的节点（或称神经元）之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数（activation function）。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式、权重值和激励函数的不同而不同。网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。回归分析（Regression Analysis）利用数据统计原理，对大量统计数据进行数学处理，并确定因变量与某些自变量的相关关系，建立一个相关性较好的回归方程（函数表达式），并加以外推，用于预测今后的因变量的变化的分析方法，就叫回归分析。回归分析又可以分为两大类，根据因变量和自变量的个数来分类的话，可分为一元回归分析与多元回归分析；根据因变量和自变量的函数表达式来分类的话，可分为线性回归分析与非线性回归分析。贝叶斯分类器（Bayesian Classifiers）由于推荐问题可以看成分类问题，因此可以使用机器学习领域中的分类算法加以解决。朴素贝叶斯分类算法是贝叶斯分类算法中比较简单的一种，它的基本思想是：对于给出的待分类物品和既定的类别，计算该物品在各个类别中出现的频率，哪个类别计算出的概率大就将物品归于那个类。在推荐系统中，朴素贝叶斯分类能够在已知某些评分的情况下，通过计算概率预测未知评分。朴素贝叶斯分类器的主要优点是对孤立的噪声点和不相关的属性具有鲁棒性，并且通过在概率估算中忽略实例来处理缺失值。素贝叶斯分类实现起来比较简单，准确率高，但是分类的时候需要学习全部样本的信息。因此，朴素贝叶斯分类适用于数据量不大，类别较少的分类问题。协同过滤技术的优缺点协同过滤与CBF相比，优势就是可以在根据各个用户的历史信息推荐项目，跟项目本身的内容属性无关。尽管CF技术取得了一定成功，但仍然存在一些问题： 1.冷启动问题在产品刚刚上线、新用户到来的时候，如果没有用户在应用上的行为数据，也无法预测其兴趣爱好。另外，当新商品上架也会遇到冷启动的问题，没有收集到任何一个用户对其浏览，点击或者购买的行为，也无从对商品进行推荐。 2.数据稀疏性问题当用户仅对数据库中可用的项目中的一小部分进行评分时，就会导致这种问题。数据规模越大，一般而言越稀疏。 3.可扩展性问题这是与推荐算法相关的另一个问题，因为计算通常随着用户和项目的数量线性增长。当数据集的量有限时，推荐技术是有效可行的，但当数据集的量增加时，生成推荐的量就不太好。在这种情况下，用于解决可扩展性问题和加速推荐生成的方法会基于降维技术，例如奇异值分解（SVD）。 4．同义问题同义词是指名称不同但非常相似的项目。大多数推荐系统很难区分这些项目之间的不同，如婴儿服装和婴儿布料。协同过滤通常无法在两个术语之间建立匹配，也无法计算二者之间的相似性。自动术语扩展、词库构建、奇异值分解（SVD），尤其是潜在语义索引，能够解决同义问题，但缺点是某些添加的术语可能与预期的含义不同，从而导致推荐性能的快速下降。