今天用sklearn的svm.svc训练模型,fit的时候出现了MemoryError。另外在用cross_validation.cross_val_score做交叉检验的时候也出现了同样的问题。由于数据比较稀疏,改用了linearsvc,不会出现这种错误了,训练的也比较快。但是考虑到这种情况,如果数据集比较大,没办法一次读入内存或者一次训练完成的话,sklearn有没有提供分批读入并训练的方式呢?还请大神赐教。
查看全文随机森林中训练每一棵树输入的m个特征都是随机选取的吗?
RF要有很多树,每棵树选同等数目的特征,比如第一棵树随机选1,3,5号特征,第二棵树随机选2,4,6号特征,是这个意思吗?还是所有树都随机选出1,3,5呢?
查看全文机器学习模型中的分类变量最多可以有多少个值?
比如说LR回归里面有个 城市变量,那么这个城市变量下面有1000个多个值。这么多值的分类变量模型能够进行很好的运算么?或者有没有其他好的处理方式??
查看全文机器学习模型的泛化能力不足,有什么改进思路?
二分类问题,采用Adaboost方法,80:20划分训练集和测试集进行交叉验证。通过调整基础分类器的个数,训练集的分类正确率控制在0.6~1.0范围内时,测试集的分类正确率都在0.6左右徘徊,很难提升。通过降低模型复杂度的方式,降低了训练集的分类准确率,但并不能获得更好的泛化能力(测试集表现),请问各位大神有什么提升办法?多谢各位的回答,bow~提问时为了简单明了,已经做的一些尝试没有提到,补充说明一下哈:1.关于模型选择,已经做过,数据集本身线性不可分,用tree族和非线性kernal的svm效果都不错,从效率出发选了tree族的,random forest和adaboost也做了比较,ada更好2.关于模型的参数调优,可以尝试的 […]
查看全文有监督的学习标签是否与取值有关?
如题,一个机器学习分类算法,假设之前的类别标签是1,2,3.如果我现在改成1,3,6.会影响分类器性能吗?求解释,谢谢!
查看全文机器学习中,用什么算法可以解决用户对商品属性的选择偏好问题?
有一个研究课题想用机器学习的经典算法解决:已知某一用户的历史购买数据和其购买的某一类商品的属性(如价格、外观等),通过这些数据,找出该用户对购买这类商品时的选择偏重(如在选择时优先考虑价格、其次是外观),并且可以赋予权值。用什么算法可以做到?决策树,层次分析法、关联分析,还是其它?
查看全文在机器学习的项目中,特征是如何被找出来的?
在我所接触过的特征学习的项目中(学校,工作),特征都是由人提取出来的。比如我们要预测天气,那么就直观的去想象什么因素可能与之后的天气有关,湿度,温度,是否有云,etc.。但是,这样的提取特征不仅仅需要很专业的知识,而且有些时候人的思维是有局限的,很难做到特征的准确性,高覆盖性。那么在工业中,是否有算法用来确定特征,而非“手工特征工程”。
查看全文怎么用支持向量机来进行预测?
好吧,我的问题就是标题里那样的,怎么用支持向量机来进行预测???!!!!只知道, 我要进行预测, 也知道支持向量机可以进行预测, 但是, 怎么做??我说的预测是可以通过java编程做出一个系统,可以读取给定的数据,并给出预测结果。数据是随时间变化的数值型数据,像是房价啊,股价啊什么的,想要的预测结果呢也是数值型的,比如未来1天或10天的数据。现在知道了有weka,有smileminer,这两个库可以实现机器学习中的各类算法,但是,怎么用?看smileminer的实例,SVM是用来分类的,那怎么做数值型的预测?还是说有别的什么工具可以用?好吧,我一点统计学的基础都没有。怎么开始??
查看全文