回归分析中为何需要对原数据进行中心化及标准化？

理由

举报取消

在学习岭回归，Lasso等相关文章时，总是上来就对所得数据进行中心化和规范化，即将Y向量减去其平均值，将X矩阵的列向量分别减去平均值并使其方差归一。我想知道这样进行数据处理的具体原因和它之所以合理的理论依据。此外，一个很具体的问题是，当用中心化规范化的数据得到回归系数beta后，对于一个新的x = （x1,x2,…,xp)数据，要对它进行怎样的处理才能和beta向量进行内积，得到y值呢？

2017年8月3日 2 条回复 2733 次浏览

分析,回归,数据,统计

回复 ( 2 )

林鑫初入职场
0
举报回复
理由

举报取消

先说标准化的问题。因为岭回归就是为了解决多重共线性的问题，必然存在多个变量，而多个变量一般都存在量纲不同的问题，所以对X一般都是要做标准化的。但是y可以标准化也可以不标准化，如果标准化了就是标准化的岭回归估计，不标准化问题也不大。但是一般处理上都会统一进行标准化的。

然后至于你说对y进行中心化，我见到的情况还比较少，一般都是标准化。而如果进行中心化的话主要是为了消掉常数项Beta0。一般在回归检验的时候都会发现很多时候常数项Beta0很容易通不过参数的t检验，所以有时候为了消掉常数项可能会使用中心化。但是比较一般的做法还是对X和y都进行标准化。

至于最后这个问题，不是很简单吗，就是对X标准化之后代入你拟合出来的回归方程啊，不过这时候因为是多维向量了，实际上已经是矩阵的运算了。
吴题初入职场
0
举报回复
理由

举报取消

因为无论ridge regression和lasso，它们的cost function求解，不中心化求出来的beta都不一样，普通的线性回归就没有任何问题

找回密码

回归分析中为何需要对原数据进行中心化及标准化？

发起人：高远 初入职场

回复 ( 2 )

我来回答

帐户注册

登录

找回密码

回归分析中为何需要对原数据进行中心化及标准化？

发起人：高远 初入职场

回复 ( 2 )

我来回答

发起人：高远初入职场