帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

如何进行feature selection以及weka上的具体操作?

我有一组数据,有50多个属性(记为Attribute 1, Attribute 2, …, Attribute n),均为数值型,现在我想对Attribute1进行预测,并想知道Attribute 2-n哪些属性对预测Attribute 1 有帮助,需要进行 feature selection。 请问我应如何进行feature selection呢?在Weka上怎么实现?

查看全文

ML/DM方向的CS硕士 考虑去欧美读金融工程硕士(MFE) 如何定位未来就业方向?

本人海外CS硕毕业正在IT行业工作,硕士期间的研究方向是数据挖掘data mining和机器学习machine learning以及大数据分析big data analysis。由于之前工作实习期间和各行各业人士的接触,对金融工程产生兴趣,从而萌生了去欧美读一个MFE的想法。最近看了一些国内国外的帖子,逐渐对这一行业有所了解,同样是quant(当然是各种quant),各种背景出身的人(如math/physics/cs/engineering phd或是mfe等等)将来适合的职业发展道路相差很大。而我虽然算是门外汉,但也想在选择读mfe前对将来的职业道路有一定的规划。个人不想做完全是developer的工作(如金融系统开发),而对其他 […]

查看全文

sklearn中的模型对于大数据集如何处理?

今天用sklearn的svm.svc训练模型,fit的时候出现了MemoryError。另外在用cross_validation.cross_val_score做交叉检验的时候也出现了同样的问题。由于数据比较稀疏,改用了linearsvc,不会出现这种错误了,训练的也比较快。但是考虑到这种情况,如果数据集比较大,没办法一次读入内存或者一次训练完成的话,sklearn有没有提供分批读入并训练的方式呢?还请大神赐教。

查看全文

如何得到列车时刻表的数据?

网络建模课需要做一个项目,打算做关于中国城市之间每天的火车车次数量。从网上找不到完整的列车时刻表数据,请问有什么方便的办法得到这些数据吗?如果没有办法直接下载到,也请教一下怎么用爬虫来获取数据。PS:一般来说火车时刻表还是固定的,所以只要是最近的某一天的时刻就行了。

查看全文