分享
在经济学研究中能否使用数据挖掘的方法?
国内某流985经济学水本,上学期做学期论文的时候,在预设问题的时候,用了ordered probit的计量方法做了一个回归问题,解释力还不错。同样的数据集,我在做数据挖掘课的时候用随机森林算法跑了一下,两者结果高度相似(当然y都是指向了同一个变量。)因为我水平有限,无论是算法和回归方法对我来说都是一个黑盒子,这都是我以后要加强的。方法都是边Google边stackflow边看书边模仿别人论文或者代码用的。经济研究上来就随便跑个回归也是很不负责任地行为,但就目前我的水平对于模型啊各种都不是很懂,我们系用的是自己老师写的教材只教初级宏微观,数学训练也很不够(这些应该不是借口)。我知道计量应当是对变量之间有逻辑预设的,然后再逐步赠删、处理变量。但(仅仅对回归而言),增删处理变量是不是弱化了假设的必要性。那么在这种情况下,我能否用数据挖掘(决策树)的方法去研究,找关系,再去解释。退一步讲,假设也是有局限性的(比如考虑不周全),数据挖掘是否就很好地弥补了这些不周全。用了数据挖掘方法的研究还是经济学研究吗?其方法和经济学价值观是否冲突,是否可以以及在怎样的程度上可以使用数据挖掘方法去研究经济问题。可能个人眼界问题,印象中没怎么看到过用数据挖掘来实证的(请打脸),以及我只用过和回归和决策树研究相同的问题,这里对于两种方法的认识也仅限于两者。可能归于片面。
回复 ( 1 )
你是搞经济学的,如果你研究的目的是要解释经济现象,阐明规律。那用随机森林等方法可能未必合适,因为这类模型往往没有直观的解释。可如果你是做预测的,那么最主要的是预测的效果。当然选入的变量(特征)也要与被解释变量有经济关联。我读过几篇用机器学习方法做经济,金融学问题研究的论文,基本都是从预测角度入手。而且作者再模型选择上也考虑了解释的直观程度,尽量选择回归树等容易解释的。同时,logit probit等模型本质就是分类器,所以计量模型和机器学习模型并不是截然不同的东西,他们都有一个爹,名叫统计学。