帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

如何进行feature selection以及weka上的具体操作?

我有一组数据,有50多个属性(记为Attribute 1, Attribute 2, …, Attribute n),均为数值型,现在我想对Attribute1进行预测,并想知道Attribute 2-n哪些属性对预测Attribute 1 有帮助,需要进行 feature selection。 请问我应如何进行feature selection呢?在Weka上怎么实现?

查看全文

ML/DM方向的CS硕士 考虑去欧美读金融工程硕士(MFE) 如何定位未来就业方向?

本人海外CS硕毕业正在IT行业工作,硕士期间的研究方向是数据挖掘data mining和机器学习machine learning以及大数据分析big data analysis。由于之前工作实习期间和各行各业人士的接触,对金融工程产生兴趣,从而萌生了去欧美读一个MFE的想法。最近看了一些国内国外的帖子,逐渐对这一行业有所了解,同样是quant(当然是各种quant),各种背景出身的人(如math/physics/cs/engineering phd或是mfe等等)将来适合的职业发展道路相差很大。而我虽然算是门外汉,但也想在选择读mfe前对将来的职业道路有一定的规划。个人不想做完全是developer的工作(如金融系统开发),而对其他 […]

查看全文

sklearn中的模型对于大数据集如何处理?

今天用sklearn的svm.svc训练模型,fit的时候出现了MemoryError。另外在用cross_validation.cross_val_score做交叉检验的时候也出现了同样的问题。由于数据比较稀疏,改用了linearsvc,不会出现这种错误了,训练的也比较快。但是考虑到这种情况,如果数据集比较大,没办法一次读入内存或者一次训练完成的话,sklearn有没有提供分批读入并训练的方式呢?还请大神赐教。

查看全文

机器学习模型的泛化能力不足,有什么改进思路?

二分类问题,采用Adaboost方法,80:20划分训练集和测试集进行交叉验证。通过调整基础分类器的个数,训练集的分类正确率控制在0.6~1.0范围内时,测试集的分类正确率都在0.6左右徘徊,很难提升。通过降低模型复杂度的方式,降低了训练集的分类准确率,但并不能获得更好的泛化能力(测试集表现),请问各位大神有什么提升办法?多谢各位的回答,bow~提问时为了简单明了,已经做的一些尝试没有提到,补充说明一下哈:1.关于模型选择,已经做过,数据集本身线性不可分,用tree族和非线性kernal的svm效果都不错,从效率出发选了tree族的,random forest和adaboost也做了比较,ada更好2.关于模型的参数调优,可以尝试的 […]

查看全文

武校现在还有发展潜力么?

家里办武校已20多年,人最多的时候学校里学生有将近500人,那是零几年的时候。当时来说我家武校在华北规模还算是可以了,校区总占地100亩左右,小学初中都有,后来发展方向没找对,我父亲重心没在学校上了,导致后来越来越不行,硬件老化,管理不到位,再加上父亲几次投资都以失败告终,资金更是很大的问题。作为儿子,真的不忍心看到父母一手创建的学校就这么没落,但是自己的能力真的很有限,一直想不出好的点子。现在我们这里出了京津冀一体化的政策,我隐隐觉得是个机会,我的意思是想发展武术夏令营,主要面对我们市里跟北京的孩子,因为我们这里到北京高铁40分钟,还是很方便的,可因为校区在郊区,离市里15公里,在市里弄一个接待点,大巴到时统一接送。这只是我一个初 […]

查看全文