R软件问题,“学生化残差与杠杆值图(Residuals vs Leverage)”如何分析? 举报 理由 举报 取消 来自R软件残差模拟:里面的两条红线0.5,1是什么意思?还有R与e-views做出来的结果差别很大,差分之后的P值完全不同。。。求赐教图中涉及的指标统计意义是什么?分析判断标准是什么?能否用R对各个指标逐一分析? 2017年11月29日 3 条回复 2013 次浏览 分析,图表,数据,编程语言
回复 ( 3 )
这个图里面显示了三个指标,都是用来衡量异常点的指标,分别是:杆杆值,标准化残差,考克斯距离,最后一个指标是用等高线形式显示出来的,在线之外的表示是异常点。
(待更新)
一.作用
这个“残差与杠杆图”可以鉴别出离群点,高杠杆值点和强影响点。下面细说这三个指标的定义和统计意义,以及R求解。
二.定义
离群点:粗糙的判断标准是标准化残差大于2或者小于-2,即看各个点在y轴方向上偏离0点的程度即可。也可以通过Q-Q图判断。
高杠杆值点:即与其他预测变量有关的离群点。通过帽子统计量判断。帽子统计量的计算涉及如下几个公式和定义。
1.hat-value定义.
其中,的定义如下
这里,我觉得可以将理解成一种权重,根据的定义,当相对较大时,则说明第个观测值对第个拟合值有较大的影响。
2.H矩阵(Hat Matrix)的性质及杠杆值定义
3.杠杆值跟学生化残差的关系:
由学生化残差与杠杆值的关系,可以发现杠杆值对学生化残差有放大的效应(或许这也是“杠杆”这一名名称的由来)。分布在“残差与杠杆图”右上方和右下方的离群点尤其值得关注。因为这些点对“模型偏离真实情况”存在很强的作用(使模型偏离的罪魁祸首,它们将模型拉扯到了其他观测点)。这些点即是后面要说到的强影响点。
强影响点:强影响点是对模型的参数估计值有些比例失衡的点(即移除某一个强影响点,则会对使模型的参数发生很大的变动,这样的点,使得模型的稳健性大打折扣)。涉及如下定义。
1.Cook’s Distance.
三.用R中的函数分别求值,绘图
可能会有理解错误,欢迎指正:)
——————-
部分性质详细推导可以参考:
机器学习笔记-Linear Regression
Leverage (statistics)
Cook’s distance
识别方法
我当时学习R的时候,记得这几个图,是对应检验做回归分析的假设前提的。
希望帮到题主!