一、背景

0.0 神说，要有正态分布，于是就有了正态分布。

0.1 神看正态分布是好的，就让随机误差都随了正态分布。

0.2 正态分布的微妙之处，就是许多看似随机事件居然遵从一个表达式就能表白的散布，如同上帝之手特意为之。

神感觉抛硬币是好的，于是定义每个抛出硬币侧面记+1分，背面记-1分。创世纪从0分开始，神只抛1次硬币，有2种可能：一半的概率+1分，一半的概率-1分。此时概率分布大略是这样的：

神决定扔10个硬币，此时概率分布如下：

如果画图来感触，数据分布大略如下：

如果是100个，甚至是无穷多个呢？均匀分数散布状况大略是什么样呢？画个图感受一下：

——《创世纪·数理统计·正态分布的前世今生》

结尾摘自统计学中十分经典的一本书籍，由此可见正态分布是十分经典和随处可见的，为什么正态分布这么常见呢？因为通常状况下，一个事物的影响因素都是多个，好比每个人的学习成绩，受到多个因素的影响，比方：

自己的智商状况。
上课听讲的认真水平，课前的预习水平，与老师的互动水平。
课后是否及时温习，有没有及时复习知识点呢，有没有做好作业坚固。

每一天的因素，每天的行为，对于学生的问题不是产生侧面因素就是负面因素，这些因素对于问题的影响不是侧面就是负面的，重复累计加持就像上图的抛硬币一样，让问题最初呈现出正态分布。数据出现正态分布其实背地是有核心极限定理原理反对，依据核心极限定理，如果事物受到多种因素的影响，不论每个因素独自自身是什么散布，他们加总后后果的平均值就是正态分布。

二、援用

正是因为日常剖析工作中数据出现是正态分布的，处于两个极其的值往往是异样的，与咱们筛选异样值人造符合。在业务方寻求一种主动监控计划的过程中，咱们抉择了该计划。依据数据分析工作中，联合统计学的数据阈值散布原理，通过主动划分数据级别范畴，确定异样值，如下图箱线图，箱线图是一个可能通过5个数字来形容数据的散布的规范形式，这5个数字包含：最小值，第一分位，中位数，第三分位数，最大值，箱线图可能明确的展现离群点的信息，同时可能让咱们理解数据是否对称，数据如何分组、数据的峰度。

箱线图是一个可能通过5个数字来形容数据的散布的规范形式，这5个数字包含：最小值，第一分位，中位数，第三分位数，最大值，箱线图可能明确的展现离群点的信息，同时可能让咱们理解数据是否对称，数据如何分组、数据的峰度，对于某些散布/数据集，会发现除了集中趋势（中位数，均值和众数）的度量之外，还须要更多信息。

（图片来源于网络）

须要无关数据变异性或分散性的信息。箱形图是一张图表，它很好地批示数据中的值如何散布，只管与直方图或密度图相比，箱线图仿佛是原始的，但它们具备占用较少空间的劣势，这在比拟许多组或数据集之间的散布时十分有用。——实用于大批量的数据稳定监控。

（图片来源于网络）

箱线图是一种基于五位数摘要（“最小”，第一四分位数（Q1），中位数，第三四分位数（Q3）和“最大”）显示数据分布的标准化办法。

中位数（Q2 / 50th百分位数）：数据集的两头值；
第一个四分位数（Q1 / 25百分位数）：最小数（不是“最小值”）和数据集的中位数之间的两头数；
第三四分位数（Q3 / 75th Percentile）：数据集的中位数和最大值之间的两头值（不是“最大值”）；
四分位间距（IQR）：第25至第75个百分点的间隔；
晶须（蓝色显示）；
离群值（显示为绿色圆圈）；
“最大”：Q3 + 1.5 * IQR；
“最低”：Q1 -1.5 * IQR。

（图片来源于网络）

上图是近似正态分布的箱线图与正态分布的概率密度函数（pdf）的比拟, 两侧0.35%的数据就可能被视为异样数据。

回到这次的监控计划，由中位数向两边扩散，划分一级二级三级四级五级数据，传入间断时间段内指标的同环比，依据同环比散布的区间确定四个异样类型：异样上涨（同环比散布同时大于等于正三级）、异样（同环比散布在一正一负大于等于三级的范畴）、异样降落（同环比散布低于等于负三级）、无异样（同环比散布低于三级的范畴）。

三、落地

实现三部曲

1. 代码实现


/*

*数据分析API服务

*/

public class DataAnalysis{

    /*

*稳定剖析

*input：json，剖析源数据（样例）

{
"org_data": [
          { "date":"2020-02-01",  "data":"10123230" },  日期类型、long类型
          { "date":"2020-02-02", "data":"9752755" },
         { "date":"2020-02-03",  "data":"12123230" },
         .......
   ]
}
*output：json，剖析后果

{
  "type": 1,  --调用失常返回1，异样返回0
  "message"：""， --异样起因
"date": 2020-02-14，--输出数据中按日期升序排列的最初一组的日期
"data": 6346231，--输出数据中按日期升序排列的最初一组的数据值
"rate1": -0.3，--同比值
"rate2": -0.6，--环比值
"level1": 4，--同比等级，5个类型：1、2、3、4、5
"level2": 3，--环比等级，5个类型：1、2、3、4、5
"result":"异样降落"，--四个类型：异样上涨、异样、异样降落、无异样
}
*/

    public String fluctuationAnalysis (String org_data){



        //第一步，校验输出数据

        if（checkOrgdata(org_data)） return {"result": 0, "message"：""}



        //第二步，计算同环比

        computeOrgdata(org_data)



        //第三步，数据升序排序，获取数组大小、最初数据中按日期升序排列的最初一组

        //以下面样例为了，数组大小14，最初一组数据{ "date":"2020-02-14", "data":"6346231" ，同比：-0.3，环比：-0.6}

对同比、环比、（data暂不做）别离做如下解决

-------

        //第四步，依照数据升序排序及数据大小，将数据（不算下面找出的最初一组数据）均匀分为4等份（这样会在数组中插入三个桩），并计算出第一个桩和第三个桩的值，以下面为例子，原来数组大小14，去掉最初一个，13个

//判断，给论断

（1）如果同比等级> 2 and 环比等级 > 2 （示意肯定有异样）

/*

*数据分析API服务

*/

public class DataAnalysis{

    /*

*稳定剖析

*input：json，剖析源数据（样例）

{
"org_data": [
          { "date":"2020-02-01",  "data":"10123230" },  日期类型、long类型
          { "date":"2020-02-02", "data":"9752755" },
         { "date":"2020-02-03",  "data":"12123230" },
         .......
   ]
}
*output：json，剖析后果

{
  "type": 1,  --调用失常返回1，异样返回0
  "message"：""， --异样起因
"date": 2020-02-14，--输出数据中按日期升序排列的最初一组的日期
"data": 6346231，--输出数据中按日期升序排列的最初一组的数据值
"rate1": -0.3，--同比值
"rate2": -0.6，--环比值
"level1": 4，--同比等级，5个类型：1、2、3、4、5
"level2": 3，--环比等级，5个类型：1、2、3、4、5
"result":"异样降落"，--四个类型：异样上涨、异样、异样降落、无异样
}
*/

    public String fluctuationAnalysis (String org_data){



        //第一步，校验输出数据

        if（checkOrgdata(org_data)） return {"result": 0, "message"：""}



        //第二步，计算同环比

        computeOrgdata(org_data)



        //第三步，数据升序排序，获取数组大小、最初数据中按日期升序排列的最初一组

        //以下面样例为了，数组大小14，最初一组数据{ "date":"2020-02-14", "data":"6346231" ，同比：-0.3，环比：-0.6}



对同比、环比、（data暂不做）别离做如下解决

-------

        //第四步，依照数据升序排序及数据大小，将数据（不算下面找出的最初一组数据）均匀分为4等份（这样会在数组中插入三个桩），并计算出第一个桩和第三个桩的值，以下面为例子，原来数组大小14，去掉最初一个，13个

//判断，给论断

（1）   如果同比等级> 2 and 环比等级 > 2  （示意肯定有异样）

And

case when 同比值<0 and 环比值<0 then '异样降落'

       when 同比值>0 and 环比值>0 then '异样上涨'

       else '异样'

end as res



return

（2）其余，无异样稳定

}

public bool checkOrgdata (String org_data){



        //测验数组中日期是否全副间断，数量至多要14天数据

        …

        if(日期不间断 || 数量小于14)

           return false;

        return ture;

}

public String computeOrgdata (String org_data){

// 计算输出数据中，每一行的同环比

环比=(今日data/昨日data-1)*100%，

同比=(今日data/上周同日data-1)*100%

return

{
"org_data": [
          { "date":"2020-02-01",  "data":"10123230" ，同比：null，环比：null },
          { "date":"2020-02-02", "data":"9752755" ，同比：null，环比：0.9},
         { "date":"2020-02-03",  "data":"12123230" ，同比：null，环比：0.9},
          .......
   ]
}
}

对于输出数据的几个关键点：

（1）要求是间断的日期，并且至多14天的数据，倡议100天的数据

（2）api中当同环比计算为null时，对立解决为0

（3）当传入的数量大于90天，取最近90天作为样本，当数量小于90天，拿所有上传作为样本

2. API封装

（1）提供已封装好的API服务为大家应用：

API应用：

传入数据示例（json）

 {
        "org_data": [
          { "date":"2020-02-01",  "data":"10123230" ，同比：null，环比：null },
          { "date":"2020-02-02", "data":"9752755" ，同比：null，环比：0.9},
         { "date":"2020-02-03",  "data":"12123230" ，同比：null，环比：0.9},
         .....
      ]
    }

返回后果解释：

{
       "type": 1,  --调用失常返回1，异样返回0
       "message"：""， --异样起因
        "date": 2020-02-14，--输出数据中按日期升序排列的最初一组的日期
        "data": 6346231，--输出数据中按日期升序排列的最初一组的数据值
        "rate1": -0.3，--同比值
        "rate2": -0.6，--环比值
        "level1": 4，--同比等级，5个类型：1、2、3、4、5
        "level2": 3，--环比等级，5个类型：1、2、3、4、5
        "result":"异样降落"，--四个类型：异样上涨、异样、异样降落、无异样
     }

留神问题点：

对于输出数据的几个关键点：

（1）要求是间断的日期，并且至多14天的数据，倡议100天的数据

（2）api中当同环比计算为null时，对立解决为0

（3）当传入的数量大于90天，取最近90天作为样本，当数量小于90天，拿所有上传作为样本

3. JAR 包提供

大数据中心日常数据开发工作以HQL为主，咱们将API服务封装成JAR包，可间接实用于数仓开发应用。

四、使用场景

目前胜利使用于大数据中心多个重点业务和平台，对其日常指标进行监控，以利用商店为例。

1、获取da表数据到 da\_appstore\_core\_data\_di

2、监控数据对立解决 da\_appstore\_core\_data\_result_di

3、每条记录调用上述UDF函数，输入断定后果，异样值可对业务发送揭示，帮忙排除业务危险

参考文献

《创世纪·数理统计·正态分布的前世今生》
知乎敌人-小尧、jinzhao 对于正态分布阈值原理的局部论述

作者：vivo 互联网大数据团队

关于SegmentFault:谈谈统计学正态分布阈值原理在数据分析工作中的运用

一、背景

二、援用

三、落地

1. 代码实现

2. API封装

3. JAR 包提供

四、使用场景

参考文献

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于SegmentFault:谈谈统计学正态分布阈值原理在数据分析工作中的运用

一、背景

二、援用

三、落地

1. 代码实现

2. API封装

3. JAR 包提供

四、使用场景

参考文献

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复