logistics回归中,当样本数据量很大时还是否需要正则化以防止过拟合? 举报 理由 举报 取消 logistics回归中,当样本数据量很大时还是否需要regularization正则化以防止过拟合? 2017年12月19日 2 条回复 1155 次浏览 学习,数据,数据挖掘,机器
回复 ( 2 )
逻辑要弄明白,正则是用在样本维度比较大的上而不是数量上的,用l1是将特征影响比较小的直接致0,l2是减少影响小的特征的值,这些都是对样本特征维度上一些对训练模型影响不是很大的特征做处理,而不是样本的数量上。所以在特征维度不是很大的情况下,原理上是不用正则的。
但是工程上会对原有特征做很多线性或者非线性的一些变化,作为新的特征,来提高样本的质量,和训练的效果。这个时候就会增加很多的特征,而且会有很多稀疏特征,这个时候最好是需要加上正则项。
不大需要吧,因为你的hypothesis class (linear separators)已经够平滑/被约束了(low VC complexity)!