做回归分析,自变量中有几个的属性都因子,是分类用的,该怎么做回归?用什么方法?怎么做?

理由
举报 取消

原问题描述不清,补充信息:

就是用r语言做回归分析,其中有四个自变量,都是因子,离散属性,比如说研究对硬盘销量的影响,其中硬盘的大小,硬盘的品牌,硬盘的usb接口,硬盘的尺寸大小,这些自变量都是离散的分类属性,如果要拿这些离散的自变量还有店铺的收藏量这种连续的自变量做回归,该怎么做?谢谢大神百忙中抽出时间回复

2017年9月29日 7 条回复 1515 次浏览

发起人:黄耀鹏 初入职场

统计硕士生,R User

回复 ( 7 )

  1. 黄耀鹏
    理由
    举报 取消

    我的大致思路如下:

    1. 将相应的分类变量转变成因子型;
    2. 使用model.matrix()将因子型变量转变成哑变量;
    3. 使用可视化探索因变量和各自变量的分布情况,以及他们两两之间的相关性;
    4. 根据变量的分布情况建立适合的回归模型;
    5. 模型检验;
    6. 进行样本外测试。
  2. 王赟 Maigo
    理由
    举报 取消

    把离散变量用one-hot编码。

    比如“品牌”这个变量,可以把“东芝”编码成[1 0 0],“西捷”编码成[0 1 0],“西部数据”编码成[0 0 1]。

  3. Matthew Zeng
    理由
    举报 取消

    补充一下楼上的答案

    R中用caret包中dummyVars就很容易转化成one-hot encoding,具体google下例子就行了

    为什么one-hot比单纯的numerical factors强我就不知道了,我是kaggle上看来的。。。

  4. 上大飞猪钱小莲
    理由
    举报 取消

    用factor(var)的形式放入回归方程里,代表不同组有不同的截距,如果和系数做交互,就代表不同组有不同的系数。

  5. Laurrre
    理由
    举报 取消

    用linear regression就可以做,需要把categorical variables编码成0,1,2…有几类就编几个…做完之后需要做model diagnosis, 主要看是不是所有的变量都要进模型,可以删除一些没有significant的变量

  6. 宇智波带土
    理由
    举报 取消

    不知道决策树回归,或者随机森林回归,能不能对你的问题有帮助

  7. 徐晓龙
    理由
    举报 取消

    简单的就是将分类型变量转为哑变量

我来回答

Captcha 点击图片更换验证码