关于mysql:统计科学之一种常见的关于率指标的错误分析思路

34次阅读

共计 630 个字符,预计需要花费 2 分钟才能阅读完成。

明天给大家分享一种在数据分析过程中对于率指标剖析可能会犯的一种谬误。这个问题其实很多新人都会犯,有的老人也会犯,而且很多时候错了当前并不自知。刚好读者群有人在问相似的问题,所以就来写篇文章分享下。

先看个例子,如下展现了 XXX 公司各个渠道的留存率状况,当初如果想要看一下该公司总计的留存率状况应该怎么算呢?

直观看上去应该有两种算法,第一种算法是用各个渠道所有的留存用户数÷各个渠道所有的新注册用户数,第二种算法是间接对三个渠道的留存率求一个平均值。那么这两种算法有啥区别呢?算进去的后果有啥不一样呢?如果你把上表中的数字用两种算法算一下,算进去的后果是不一样的。那到底哪种是正确的呢?

如果你平时是用的第一种算法,那么祝贺你,你的做法是对的,然而第二种算法错在哪里了呢? 这是因为不同渠道的新注册用户数是不一样的,所以对最初后果的影响水平也是不一样的 ,如果你间接对三个渠道的留存率求平均值,也就是你假如了这三个渠道最初对总留存率的影响是一样的,但显然是不一样的。所以这外面引出了第三种算法,即:

试着入手算一算,用第三种算法算进去的后果和第一种算法算进去的后果是一样的。

那如果不同渠道的新注册用户数是一样的状况下时,比方下表这样,这个时候用下面三种不同的算法算进去的后果都会是一样的。

以上就是对于率指标剖析常常会犯的一个谬误,其实下面这种状况不仅实用于率指标,精确的来说,应该是实用于所有须要分组相除的状况,比方每个班级的平均分和年级总平均分之间的关系。心愿对你有用。

正文完
 0