共计 2735 个字符,预计需要花费 7 分钟才能阅读完成。
作者:友盟 + 数据科学家 杨玉莲
人群细分是数据分析师们进行用户经营最罕用的数据分析办法之一。通过人群细分,能够疾速理解产品的外围受众,进而得出洞察论断,领导优化经营策略。很多时候,人群细分之后,剖析人员还会进一步剖析不同人群在产品外围指标下面的体现差别,从而发现问题并进行优化。
从技术视角,用户分群的形式次要有两种:基于规定的分群办法(Rule-based Segmentation)和基于算法的分群办法(ML-based Segmentation)。前者次要实用于业务规定确定,分群采纳的用户特色维度繁多的场景,而后者次要用于用户特色维度高,人工无奈设定正当分群规定的场景。
从业务视角,分析师或者经营人员须要思考的更多是要基于哪些特色维度来对用户进行分群。这往往跟要剖析的问题非亲非故。常见的用户分群维度包含如下几种:
· 基于人口属性的用户分群
· 基于地区属性的用户分群
· 基于渠道起源的用户分群
· 基于用户生命周期的分群
然而,在理论利用中,咱们也常常通过用户应用的设施品牌,机型,用户应用产品的版本,在产品中的高频行为来对用户进行分群。
以基于人口属性的用户分群办法为例,咱们次要思考用户的年龄,性别,学历,职业,支出,婚育状态等属性。这些信息能够在用户第一次进入产品页面时或者通过在线问卷调查的形式收集。但随着用户的集体信息安全意识越来越强,通过产品页面或问卷调查收集的用户信息存在不准确甚至缺失的问题。这时候,就须要通过数据挖掘的伎俩对用户的人口属性信息进行预测。以性别预测为例,根本的操作步骤如下:!
其中特色加工阶段抉择什么样的特色来建模,决定了最终模型预测成果的下限。比方,对于性别预测来讲,观看视频的行为特色根本是没用的,但浏览了美妆页面的行为就是一个十分有用的特色。有了用户的人口属性,最常见的人群细分伎俩是基于人群属性的某一个维度,比方年龄段,进行准确的人群切分(下图)。
然而基于一维属性的人群细分有一个十分大的毛病:无奈看到平面的用户分群状况。于是咱们有了基于二维属性的人群细分办法。针对属性的不同取值类型 – 离散型和连续型,人群的细分办法会有所不同。对于离散型的属性,能够间接通过属性值组合的形式进行人群细分,如下图一,通过性别和生命周期阶段能够将人群分为 8 个子群,咱们能够看到次要的人群集中在沉闷人群和新增女性,同时男性转化与散失人群占比也较高;对于连续型的属性,则需选定每个维度的切分点,而后在二维立体上将人群切成对应的不同分组。以下图二为例,能够看到人群大部分都集中在二维立体的第一象限,在其余象限别离有一个离散的点。!
基于二维属性的人群细分办法实质上是基于一维属性的人群细分办法的扩大。以此类推,咱们也有基于三维
属性的人群细分办法,大家耳熟能详的 RFM 人群分层模型就是属于这一类。
以上介绍的人群细分办法,在人群属性值比拟多或者维度较高的状况下,可扩展性会受到重大挑战。设想一下,人群的属性有 N 维,假如每一维有两个离散的取值,如果咱们依照这些取值的组合对人群做细分,就会有 2 的 N 次方个用户群体。随着 N 的减少,人群数也会指数级地增长,最终人群细分就会变成超级细分,细分的后果也就很难剖析出有价值的洞见。在这种状况下,如何疾速地找出所有用户中的典型人群,就变得有挑战了。
具体的挑战在于:1、如何基于高维或者多属性值特色疾速定位出外围人群 2、如何确认外围人群的要害属性。要解决这两个挑战,非数据挖掘算法莫属了。在友盟 +,咱们摸索了两种基于算法的人群细分办法,均获得了不错的成果。
其一是基于决策树模型的办法。这种办法次要用于人群特色维度低,然而特色取值比拟多的场景。先看一下咱们的后果,而后我来解释具体的原理。
(图片起源:友盟 +U–APP 用户洞察)
咱们能够看到,跟大盘相比,咱们要剖析的人群的显著特色之一是地区集中在一线城市。其中年龄 25-39 岁和男性这两个特色尤为显著,其人群数量占整体的 39%。整个过程通过决策树算法全自动化生成,无需人工干预。相比之下,如果是用后面讲述的办法从城市等级(6 个取值),年龄段(6 个取值),性别(2 个取值)这三个维度对用户分群,咱们会生成 6 *6*2=72 个人群,剖析 72 个人群并从中找出外围人群不仅费时,还费劲。
咱们是怎么做到全自动化地对以上人群进行细分的呢?这里咱们采纳了决策树的思维, 通过在每一层基于信息增益抉择一个最优的切分维度和分隔点,将与大盘人群差别最大的群组辨别进去。这种办法也实用于特色维度高于 3 的人群细分问题。
当特色维度高于 3 的时候,咱们能够通过管制树的高度,来管制决策数优先选出的最显著的特色数,最初通过 TGI 来量化特色的显著性。
另一种人群细分的办法是基于聚类(clustering)的办法。这种办法实用于用户特色维度比拟高的场景。比方,在咱们给客户做的一个分群服务中,客户须要基于用户的人口属性,手机特色(品牌,机型,屏幕大小,硬件参数),以及用户的 APP 应用趣味来进行人群细分。
这时候,后面的任意一种办法都不论用了,必须求助于更简单的技术手段:聚类分析。以下是基于聚类办法进行用户分群的个别步骤:
其中第一,二,五步的工作是与人群细分的业务场景严密相干的三个步骤。咱们能取得多少的待分群样本,抉择哪些特色维度作为人群的属性维度,以及基于细分人群得出的商业论断和 action,均与这个人群细分自身的利用场景非亲非故,要 case by case 来看待。而第三步,第四步的上半局部,背地的技术手段则绝对来讲比拟通用。
为了失去一个好的聚类后果,须要一直地尝试不同的类别个数和聚类办法,而后对类内聚合度和类间区分度进行迷信的评估。其中,数据摸索是须要最先进行的一个步骤。在咱们的实际中,发现档次聚类是一种十分好的数据摸索形式。
以下图为例,输出市场上机型的配置信息(17 维特色),咱们产出档次聚类后果:间隔最近的机型最早被聚在一起,间隔最远的机型最初被聚在一起。从后果中能够看到,被聚在一起的机型具备肯定的共性,比方 FindX 及 Mate 均为偏高端的手机,而华为畅享 / 光荣畅玩 / 红米数字 /VIVO Y 则为千元机系列。依据不同机型之间的间隔远近,咱们决定将这些机型分成 10 类(粉色和蓝色带)。
值得注意的是,最佳的聚类后果并不一定是迷信评估最优的聚类后果。在迷信评估之上,一个正当的聚类后果还须要具备可解释性,迷信评估合格且人工解读正当有用的聚类后果才是最优的用户分群。持续以上图为例,因为聚类产出的后果自身具备可解释性:不同聚类的设施背地的用户群体不同,因而能够间接应用档次聚类的后果作为最终的聚类后果。否则,能够进一步尝试其余的特色输出和聚类办法,通过比照多种后果,抉择最正当的作为最终后果。
以上就是用户分群的 N 种形式,你学会了几种?