做回归分析,自变量中有几个的属性都因子,是分类用的,该怎么做回归?用什么方法?怎么做? 举报 理由 举报 取消 原问题描述不清,补充信息: 就是用r语言做回归分析,其中有四个自变量,都是因子,离散属性,比如说研究对硬盘销量的影响,其中硬盘的大小,硬盘的品牌,硬盘的usb接口,硬盘的尺寸大小,这些自变量都是离散的分类属性,如果要拿这些离散的自变量还有店铺的收藏量这种连续的自变量做回归,该怎么做?谢谢大神百忙中抽出时间回复 2017年9月29日 7 条回复 1467 次浏览 分析,回归,数据,编程语言
回复 ( 7 )
我的大致思路如下:
把离散变量用one-hot编码。
比如“品牌”这个变量,可以把“东芝”编码成[1 0 0],“西捷”编码成[0 1 0],“西部数据”编码成[0 0 1]。
补充一下楼上的答案
R中用caret包中dummyVars就很容易转化成one-hot encoding,具体google下例子就行了
为什么one-hot比单纯的numerical factors强我就不知道了,我是kaggle上看来的。。。
用factor(var)的形式放入回归方程里,代表不同组有不同的截距,如果和系数做交互,就代表不同组有不同的系数。
用linear regression就可以做,需要把categorical variables编码成0,1,2…有几类就编几个…做完之后需要做model diagnosis, 主要看是不是所有的变量都要进模型,可以删除一些没有significant的变量
不知道决策树回归,或者随机森林回归,能不能对你的问题有帮助
简单的就是将分类型变量转为哑变量