发起人:谭zq 初入职场

回复 ( 1 )

  1. 星星贝
    理由
    举报 取消

    箱形图可以用来观察数据整体的分布情况,利用中位数,25/%分位数,75/%分位数,上边界,下边界等统计量来来描述数据的整体分布情况。通过计算这些统计量,生成一个箱体图,箱体包含了大部分的正常数据,而在箱体上边界和下边界之外的,就是异常数据。

    其中上下边界的计算公式如下:

    UpperLimit=Q3+1.5IQR=75%分位数+(75%分位数-25%分位数)*1.5,

    LowerLimit=Q1-1.5IQR=25%分位数-(75%分位数-25%分位数)*1.5

    (将数据由小到大排序,处于中间的为中位数,即50%分位数,在75%位置的即为75%分位数或四分之三分位数——Q3,在25%位置的即为25%分位数或四分之一分位数——Q1)

    参数说明:

    1. Q1表示下四分位数,即25%分位数;Q3为上四分位数,即75%分位数;IQR表示上下四分位差,系数1.5是一种经过大量分析和经验积累起来的标准,一般情况下不做调整。

    2. 分位数的参数可根据具体预警结果调整:25%和75%,是比较灵敏的条件,在这种条件下,多达25%的数据可以变得任意远而不会很大地扰动四分位。具体业务中可结合拟合结果自行调整为其他分位。

我来回答

Captcha 点击图片更换验证码