回归分析中为何需要对原数据进行中心化及标准化?

理由
举报 取消

在学习岭回归,Lasso等相关文章时,总是上来就对所得数据进行中心化和规范化,即将Y向量减去其平均值,将X矩阵的列向量分别减去平均值并使其方差归一。我想知道这样进行数据处理的具体原因和它之所以合理的理论依据。此外,一个很具体的问题是,当用中心化规范化的数据得到回归系数beta后,对于一个新的x = (x1,x2,…,xp)数据,要对它进行怎样的处理才能和beta向量进行内积,得到y值呢?

2017年8月3日 2 条回复 2532 次浏览

发起人:高远 初入职场

爱足球⚽️,擅吐槽,擅泼冷水。 最近邀请较多,我会尽力而为。

回复 ( 2 )

  1. 林鑫
    理由
    举报 取消

    先说标准化的问题。因为岭回归就是为了解决多重共线性的问题,必然存在多个变量,而多个变量一般都存在量纲不同的问题,所以对X一般都是要做标准化的。但是y可以标准化也可以不标准化,如果标准化了就是标准化的岭回归估计,不标准化问题也不大。但是一般处理上都会统一进行标准化的。

    然后至于你说对y进行中心化,我见到的情况还比较少,一般都是标准化。而如果进行中心化的话主要是为了消掉常数项Beta0。一般在回归检验的时候都会发现很多时候常数项Beta0很容易通不过参数的t检验,所以有时候为了消掉常数项可能会使用中心化。但是比较一般的做法还是对X和y都进行标准化。

    至于最后这个问题,不是很简单吗,就是对X标准化之后代入你拟合出来的回归方程啊,不过这时候因为是多维向量了,实际上已经是矩阵的运算了。

  2. 吴题
    理由
    举报 取消

    因为无论ridge regression和lasso,它们的cost function求解,不中心化求出来的beta都不一样,普通的线性回归就没有任何问题

我来回答

Captcha 点击图片更换验证码