关于数据分析:数据分析的两个误区你中招了吗

34次阅读

共计 2559 个字符,预计需要花费 7 分钟才能阅读完成。

平时无论是进行用户调研、产品经营还是竞品剖析,都少不了对于数据的剖析,如果我的项目中呈现某些一致谁也无奈压服谁时,很多时候也都是拿数据谈话,可见在开发产品的时候,对数据的统计与剖析非常重要。大家都说数据是主观的,但其实数据受背景环境、统计者、统计办法、剖析者认识等多重因素影响,以至咱们在统计和剖析时却经常陷入误区,得不到正确的答案。上面简略说一下对于数据的两个常见误区。

误区一:把某一类型数据当做全副数据,导致剖析后果谬误

先说个小故事:二战时英国空军心愿减少飞机的装甲厚度,但如果全副装甲加厚则会升高灵活性,所以最终决定只减少受攻打最多部位的装甲。起初工作人员通过对中弹飞机的统计,发现大部分飞机的机翼弹孔较多,所以决定减少机翼的装甲厚度。直到起初一个专家说:“可是机头中弹的那些飞机就没有飞回来。”

这个故事里本应是对全副飞机进行剖析,但统计样本没有蕴含曾经损毁的飞机,所以得出的论断只是依据局部数据,或者说是依据具备同样特色(受伤)的某一类数据推论出的,并不能代表全副类型的数据,所以得出的后果很可能是谬误的。

再看一个例子:前一阵我为了剖析人人网,想看看人人网当初的用户访问量是什么状态,于是抉择了 PV 作为观测指标,通过 alexa 来看人人网的 PV 在过来一年中呈显著的降落态势,这也印证了我的预期,于是就以此为论据进行了剖析。可是起初发现,alexa 仅仅统计通过 WEB 的访问量,而用户挪动端的登录并不在统计范畴之内!这两年智能手机遍及迅速,挪动端登录也十分广泛,缺失这部分数据意味着后面统计的数据根本没有意义,因为 WEB 端访问量的降落有可能是用户拜访人人网次数升高,同时也有可能是由 PC 端向挪动端迁徙,这个统计就不能作为论据呈现了。

能够看到,我只统计了 WEB 端的拜访状况,认为这就是人人网全副访问量,而疏忽了挪动端,从而推出了谬误的后果。另一个问题就是因为我曾经有预期(人人网访问量降落),那么我在为这个论断找寻相干的论据,当找到合乎我论断的论据时很容易不去做更多判断就抉择有利于本人的数据,这也是数据统计人员常见的问题。

用某一类型数据代替全副数据会误导咱们做出谬误的判断,在统计时肯定要留神这点。这一方面须要意识,在统计、剖析数据时要时刻想着还有没有其余的状况,还有没有咱们没有想到的数据类型,这些数据是不是能代表全副类型,尝试站在更高的角度去解读这些数据,而不是拿到数据后立即就自觉剖析。另一方面须要常识的累积,比方你晓得 alexa 是如何进行统计的,那么很轻易就会想到还要思考挪动端的状况。常识的累积有助于咱们做出精确的判断,这些常识与教训都是从浏览或实际中得来的,平时多做,缓缓累积,工夫久了天然会看得更全面。

误区二:显明事件让咱们夸张了偶尔因素

显明的事件更容易占据咱们的眼帘,从而让咱们高估事件产生的概率。

比方从年度统计中看到,某基金近两年的收益率达到 100%,有某某明星操盘手等等,人们就会争相去购买该基金,同时也会让人们认为买基金就是能够赚钱的。而实际上,绝少有基金能够长年放弃这样的收益率,近两年收益前五名的基金很可能在五年后收益率就排行倒数,而世面上大部分基金也无奈跑赢大盘,不过人们在记忆中仍然会认为买基金的确很赚钱,当年 XXX 两年益 100% 呢。两年收益达到 100% 只是偶尔状况,但却因为事件太过显明而短暂驻扎在人们的心智中。

相似的事还有很多。比方富士康 N 连跳,大家都感觉这么多人跳楼,富士康必定太光明了,但大家却没有留神富士康员工大略有 37 万人,按 12 连跳的话他杀率不到十万分之四,而全国的均匀他杀率为十万分之十五,N 连跳他杀率远低于全国他杀率,可见富士康 12 连跳实际上是一个社会问题,而不仅仅是一个企业的问题,咱们太过重视显明的事实却疏忽了背地整体的概率。

前两天美国波士顿爆炸案死亡 3 人,微博上各种祈福,可是阿富汗、伊拉克等国家简直每天都面临着这些问题,只是因为媒体不会终日报道那里的音讯,而天天呈现的袭击也麻木了人们的神经,所以咱们只会关注显明的波士顿爆炸,而对其余地区天天产生的事件金石为开。另外比方你四周有人买股票赚了好多钱,可能你也会很想投身股市一试运气,而疏忽了散户 8 赔 1 平 1 赚的整体概率。你看到了各种守业成功者的报道,认为本人也能够尝试守业,毕竟胜利概率如同也不低。但你不晓得那些不胜利的人根本没有被报道的机会,而实际上守业胜利的人可能不到 1%。

说了这么多,其实就是太过显明的偶尔事件会让咱们疏忽背地始终存在的整体概率。看到这种数据的时候,不要太过情绪化,你所看到的数据或事件可能只是个例,并不能代表大多数,能够去查查历史状况或均匀状况,去找找缄默的用户或数据,切忌轻易就做出判断和决定。要感性对待这些偶尔事件,既不自觉追随,也不对此不屑一顾,在明确整体概率的状况下,剔除偶尔因素, 剖析这些偶尔事件背地是否存在着某些值得借鉴的中央,从而排汇到本人产品或我的项目中,以便使本人的产品或要解决的事件有可能成为市场中下一个“偶尔事件”。

广州思迈特软件有限公司致力于为企业客户提供一站式商业智能解决方案。

通过 Smartbi 产品为客户提供报表、数据可视化、数据挖掘等成熟性能;通过 Smartbi 利用商店为客户提供场景化、行业化数据分析利用。通过十余年的倒退,已在金融、电信、政府、制作等行业取得 2000 多家当先客户认可,口碑良好。在寰球财产 500 强的 10 家国内银行,有 8 家选用了 Smartbi。

在大数据和大数据分析时代,它们对企业的影响有一个趣味低落。大数据分析是钻研大量的数据的过程中寻找模式,相关性和其余有用的信息,能够帮忙企业更好地适应变动,并做出更理智的决策。

那就要问数据分析软件有哪些?越来越多软件供应商推出可视化数据分析,为了应答以后企业业务的大数据现状,有哪些自助式的数据分析工具可供选择?

Smartbi 是一款面向企业的在线商业智能产品。最重要的特点是装备百亿级社交数据库,搭载了分布式搜寻、语义剖析、数据可视化三大引擎零碎的海量计算平台,实现数据处理“摸索式剖析”和“秒级响应”的两个外围性能。

即使是集体免费版,体验和性能依然十分好;功能完善,集数据处理、特色工程、建模、文本开掘为一体的机器学习平台;可视化视图展示、敌对的客户感知页面;反对 SAAS,私有化部署,有权限治理。

正文完
 0