我有一组数据,有50多个属性(记为Attribute 1, Attribute 2, …, Attribute n),均为数值型,现在我想对Attribute1进行预测,并想知道Attribute 2-n哪些属性对预测Attribute 1 有帮助,需要进行 feature selection。 请问我应如何进行feature selection呢?在Weka上怎么实现?
查看全文ML/DM方向的CS硕士 考虑去欧美读金融工程硕士(MFE) 如何定位未来就业方向?
本人海外CS硕毕业正在IT行业工作,硕士期间的研究方向是数据挖掘data mining和机器学习machine learning以及大数据分析big data analysis。由于之前工作实习期间和各行各业人士的接触,对金融工程产生兴趣,从而萌生了去欧美读一个MFE的想法。最近看了一些国内国外的帖子,逐渐对这一行业有所了解,同样是quant(当然是各种quant),各种背景出身的人(如math/physics/cs/engineering phd或是mfe等等)将来适合的职业发展道路相差很大。而我虽然算是门外汉,但也想在选择读mfe前对将来的职业道路有一定的规划。个人不想做完全是developer的工作(如金融系统开发),而对其他 […]
查看全文sklearn中的模型对于大数据集如何处理?
今天用sklearn的svm.svc训练模型,fit的时候出现了MemoryError。另外在用cross_validation.cross_val_score做交叉检验的时候也出现了同样的问题。由于数据比较稀疏,改用了linearsvc,不会出现这种错误了,训练的也比较快。但是考虑到这种情况,如果数据集比较大,没办法一次读入内存或者一次训练完成的话,sklearn有没有提供分批读入并训练的方式呢?还请大神赐教。
查看全文随机森林中训练每一棵树输入的m个特征都是随机选取的吗?
RF要有很多树,每棵树选同等数目的特征,比如第一棵树随机选1,3,5号特征,第二棵树随机选2,4,6号特征,是这个意思吗?还是所有树都随机选出1,3,5呢?
查看全文机器学习模型中的分类变量最多可以有多少个值?
比如说LR回归里面有个 城市变量,那么这个城市变量下面有1000个多个值。这么多值的分类变量模型能够进行很好的运算么?或者有没有其他好的处理方式??
查看全文机器学习模型的泛化能力不足,有什么改进思路?
二分类问题,采用Adaboost方法,80:20划分训练集和测试集进行交叉验证。通过调整基础分类器的个数,训练集的分类正确率控制在0.6~1.0范围内时,测试集的分类正确率都在0.6左右徘徊,很难提升。通过降低模型复杂度的方式,降低了训练集的分类准确率,但并不能获得更好的泛化能力(测试集表现),请问各位大神有什么提升办法?多谢各位的回答,bow~提问时为了简单明了,已经做的一些尝试没有提到,补充说明一下哈:1.关于模型选择,已经做过,数据集本身线性不可分,用tree族和非线性kernal的svm效果都不错,从效率出发选了tree族的,random forest和adaboost也做了比较,ada更好2.关于模型的参数调优,可以尝试的 […]
查看全文武校现在还有发展潜力么?
家里办武校已20多年,人最多的时候学校里学生有将近500人,那是零几年的时候。当时来说我家武校在华北规模还算是可以了,校区总占地100亩左右,小学初中都有,后来发展方向没找对,我父亲重心没在学校上了,导致后来越来越不行,硬件老化,管理不到位,再加上父亲几次投资都以失败告终,资金更是很大的问题。作为儿子,真的不忍心看到父母一手创建的学校就这么没落,但是自己的能力真的很有限,一直想不出好的点子。现在我们这里出了京津冀一体化的政策,我隐隐觉得是个机会,我的意思是想发展武术夏令营,主要面对我们市里跟北京的孩子,因为我们这里到北京高铁40分钟,还是很方便的,可因为校区在郊区,离市里15公里,在市里弄一个接待点,大巴到时统一接送。这只是我一个初 […]
查看全文