R软件问题,“学生化残差与杠杆值图(Residuals vs Leverage)”如何分析?

理由
举报 取消

来自R软件残差模拟:里面的两条红线0.5,1是什么意思?还有R与e-views做出来的结果差别很大,差分之后的P值完全不同。。。求赐教图中涉及的指标统计意义是什么?分析判断标准是什么?能否用R对各个指标逐一分析?

2017年11月29日 3 条回复 2013 次浏览

发起人:黄耀鹏 初入职场

统计硕士生,R User

回复 ( 3 )

  1. 肖凯
    理由
    举报 取消

    这个图里面显示了三个指标,都是用来衡量异常点的指标,分别是:杆杆值,标准化残差,考克斯距离,最后一个指标是用等高线形式显示出来的,在线之外的表示是异常点。

  2. 黄耀鹏
    理由
    举报 取消

    (待更新)

    一.作用

    这个“残差与杠杆图”可以鉴别出离群点,高杠杆值点和强影响点。下面细说这三个指标的定义和统计意义,以及R求解。

    二.定义

    离群点:粗糙的判断标准是标准化残差大于2或者小于-2,即看各个点在y轴方向上偏离0点的程度即可。也可以通过Q-Q图判断。

    高杠杆值点:即与其他预测变量有关的离群点。通过帽子统计量判断。帽子统计量的计算涉及如下几个公式和定义。

    1.hat-value定义.

    \hat{Y_i} = h_{i1}Y_1+h_{i2}Y_2+...+h_{in}Y_n=\sum_{j = 1}^{n}h_{ij}Y_j

    其中,h_{ij}的定义如下

    \begin{equation}
 \begin{array}{rcl}
\hat{y}  &=&  Xb \\
    &=& X(X^{T}X)^{-1}X^{T}y \\
   &=&Hy \\
\therefore H &=& X(X^{T}X)^{-1}X^{T}

\end{array}
\end{equation}

    这里,我觉得可以将h_{ij}理解成一种权重,根据h_{ij}的定义,当h_{ij}相对较大时,则说明第j个观测值对第i个拟合值有较大的影响。

    2.H矩阵(Hat Matrix)的性质及杠杆值定义

    • 幂等性H = H^2
    • 对称性H = H^T
    • 从而有杠杆值(leverage score)的定义:h_i =h_{ii} =\frac{\partial{\hat{y_{i}}}}{\partial y_i}=\mathbf{{h_i}^Th_i}=\sum_{j =1}^{n}h_{ij}^2(第三个等号由幂等性得到).
    • 利用该定义,容易推出0\leq h_{ii} \leq 1 .它可以用来测定Y_i对所有拟合值的杠杆。
    • 另外,它的均值为\bar{h} = (k+1)/n(是判断高杠杆值的标准).
    • 从一元线性回归中h_i的表达式来对均值验证一番:h_i = \frac{1}{n}+\frac{(X_i-\bar{X})^2}{\sum_{j=1}^{n}(X_j-\bar{X})^2}.
    • 高杠杆值点判断标准:帽子值大于帽子均值的2或3倍以上。

    3.杠杆值跟学生化残差的关系:

    • 利用以上性质可以得到残差方差

    Var(e) = Var((I-H)Y) = \sigma^2(I-H) \\
\therefore Var(e_i) = (1 - h_{ii})\sigma^2

    • 从而,得到学生化残差(studentized residual)

    t_i = \frac{e_i}{\hat{\sigma} \sqrt{1-h_{ii}}}

    由学生化残差与杠杆值的关系,可以发现杠杆值对学生化残差有放大的效应(或许这也是“杠杆”这一名名称的由来)。分布在“残差与杠杆图”右上方和右下方的离群点尤其值得关注。因为这些点对“模型偏离真实情况”存在很强的作用(使模型偏离的罪魁祸首,它们将模型拉扯到了其他观测点)。这些点即是后面要说到的强影响点。

    强影响点:强影响点是对模型的参数估计值有些比例失衡的点(即移除某一个强影响点,则会对使模型的参数发生很大的变动,这样的点,使得模型的稳健性大打折扣)。涉及如下定义。

    1.Cook’s Distance.

    D_i= \frac{t_{i}^2}{k+1}\times \frac{h_i}{1-h_i}

    • 第一部分测量了偏离程度,第二部分测量了杠杆值。
    • 判断强影响点的标准:Cook’s Distance大于4/(n-k-1).
    • 图中的两条红线0.5和1,我觉得应该起到的是一个类似置信区间的判断标准的作用。

    三.用R中的函数分别求值,绘图

    可能会有理解错误,欢迎指正:)

    ——————-

    部分性质详细推导可以参考:

    机器学习笔记-Linear Regression

    Leverage (statistics)

    Cook’s distance

    识别方法

  3. Ryan Fan
    理由
    举报 取消

    我当时学习R的时候,记得这几个图,是对应检验做回归分析的假设前提的。

    希望帮到题主!

我来回答

Captcha 点击图片更换验证码