发起人:王广 初入职场

回复 ( 2 )

  1. 沈晓龙
    理由
    举报 取消

    就是 noise 和 outlier 是吧..

    通常来说我们会定义 观测量(Measurement) = 真实数据(True Data) + 噪声 (Noise);

    而离群点(Outlier)属于观测量,既有可能是真实数据产生的,也有可能是噪声带来的,但是总的来说是和大部分观测量之间有明显不同的观测值。

    这样就回答了一部分问题了。

    定义的话请参考 @数据挖掘的定义。

    那么如果要说哪个有用的话…嗯,DNA-sequence Detection里面就常用outlier来检测疾病的病症,所以outlier虽然常常并不会被包含在数据集中,但是有时候也很有用。 而噪声的话,我们自己就用过不同的设备对同一信源的监测过程中利用噪声模型的差异来识别检测设备什么的…所以纯粹看用途吧。

    再翻译一个quora上对于这个类似问题的回答吧,不说完全对但感觉起码容易懂[

    离群点: 你正在从口袋的零钱包里面穷举里面的钱,你发现了3个一角,1个五毛,和一张100元的毛爷爷向你微笑。这个100元就是个离群点,因为并不应该常出现在口袋里..

    噪声: 你晚上去三里屯喝的酩酊大醉,很需要买点东西清醒清醒,这时候你开始翻口袋的零钱包,嘛,你发现了3个一角,1个五毛,和一张100元的毛爷爷向你微笑。但是你突然眼晕,把那三个一角看成了三个1元…这样错误的判断使得数据集中出现了噪声~

  2. 数据挖掘
    理由
    举报 取消

    噪声:被测量的变量的随机误差或方差;

    离群点:数据集中包含一些数据对象,它们与数据的一般行为或模型不一致;

    (以上定义来自《数据挖掘:概念与技术》 Jiawei Han Micheline Kamber Jian Pei著)

    不能说噪声点包含离群点,虽然大部分数据挖掘方法都将离群点视为噪声或异常而丢弃。然而,在一些应用(例如:欺诈检测),会针对离群点做离群点分析或异常挖掘。

    而且有些点在局部是属于离群点,但从全局看是正常的。

我来回答

Captcha 点击图片更换验证码