关于算法:统计科学系列之数据分析中的两种偏差

40次阅读

共计 1240 个字符,预计需要花费 4 分钟才能阅读完成。

明天给大家介绍一下数据分析中常见的两种偏差:选择性偏差和幸存者偏差。

1. 选择性偏差

选择性偏差指的是在钻研过程中因样本抉择的非随机性而导致失去的论断存在偏差, 是因为人为主观的抉择而导致的数据偏差。

咱们来看一个对于选择性偏差的例子,当初有一个钻研机构想要钻研一个主题就是『医院是否能够让人变的更衰弱』。这个机构随机筛选了 10 万名大众,测量这 10 万名大众的衰弱程度,而后依据最近一年是否有去过医院将 10 万名大众分为两组,最初失去的统计后果是最近一年 没去过 医院的群体的衰弱程度要比 去过 医院的群体衰弱程度要好,咱们能阐明医院让人变的更加不衰弱吗?

这就是一个很典型的选择性偏差导致的一个后果,因为最近一年没去过医院的群体整体健康程度可能原本就要比去过的要好,所以测试进去的后果也是如此,并不能阐明是医院让人的变得更加不衰弱。

咱们在日常剖析过程中要尽量避免这种偏差的产生,掂量有没有选择性偏差的一个很重要规范就是,被比拟的两组群体之间是否具备可比性。

2. 幸存者偏差

幸存者偏差指的是只能看到通过某种筛选而产生的后果,而没有意识到筛选的过程,因而疏忽了被筛选掉的要害信息。

咱们来看一个比拟长远的一个例子,二战的时候美军为了增强战机的防护能力,所以就把加入过战斗的飞机钻研了一遍,发现飞机的弹孔大多集中在机翼和尾部,于是剖析核心的工作人员认为倡议将这些受损最重大的中央加固。

统计学家亚伯拉罕·沃尔德(Abraham Wald)却得出一个跟直觉相同的论断。他发现参加考察的都是在战斗中幸存下来的飞机,它们并未蒙受致命的袭击。相同,机舱和发动机等看似毫发无伤的中央反而比拟危险,因为这些区域一旦被击中,就会导致飞机失事坠毁。其实咱们看到的飞机是被筛选过后的飞机,还有一部分曾经坠毁的飞机咱们是看不到的,这就是幸存者偏差。

再比方常常会在脉脉、知乎这样的平台上看到,好像人人都是年薪百万,只有本人是个战斗力有余五的渣渣。这其实都是属于幸存者偏差,那些年薪百万的人会被动展现本人,还有一大堆不是年薪百万的都被过滤掉了。

这就和咱们平时工作中遇到的状况一样,你常常会遇到各种各样的吐槽,比方埋怨你产品价格太高了,你如果间接把产品价格升高了能解决问题吗?真正感觉你产品价格高的人可能压根就不会去跟你埋怨。比方买千元机的人必定不会跑去苹果官网埋怨说,你们苹果手机太贵了。

3. 最初

咱们在平时数据分析或者是工作中常常会不盲目的陷入下面的这两种问题外面,那怎么样能力防止下面的两种偏差呢?办法就是多问几个为什么?下面的偏差也是咱们通过数据分析得进去的,通过剖析得进去论断当前,多去问几个为什么?为什么会呈现这种状况,为什么这些飞机飞回来了,为什么这些人会埋怨价格高。你如果能找到数据背地产生的起因,你也就不会犯下面的错了。

下面的两种偏差比拟相似,但又不同,前者是因为咱们人为抉择钻研对象不精确而导致的偏差,后者因为咱们只看到了他人想要咱们看到的局部而导致的偏差。两者也有共同点,就是都是因为咱们没有看到数据的全貌而导致的偏差。

正文完
 0