帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

有人使用过xgboost吗?

最近在用xgboost进行数据分类,xgboost是最近很牛逼的一个boost实现,在很多数据挖掘比赛(比如kaggle)上都大放异彩我使用的是xgboost的java版本,用了它自带的例子没有任何问题,分类很正确,但是用自己生成的数据测试就不对劲了,我生成了一组用肉眼就可以区分的数据1,1,1,1,1,1,1,21,1,1,1,1,1,1,2…1,1,1,1,1,1,1,22,2,2,2,2,2,2,42,2,2,2,2,2,2,4…2,2,2,2,2,2,2,4并转换成了SVM格式的数据文件,结果用xgboost训练时只有50%的准确率,这是为毛啊?xgboost的参数我都是按照默认来的没动过(̶ […]

查看全文

数据分析有希望转算法工程师吗?

由于没接触过算法工程师,不清楚自己有没有转型的可能性,有些迷茫。请问什么样的职位或职业经历比较有帮助?有哪些职位可以作为过度或学习路径?多谢!说说本人经历:# — begin统计本科毕业,不过刚毕业的4年里,工作经历涉及更多的是商业分析和dw相关的项目;有时会用R,Python的处理数据;hql和streaming也没问题。机器学习方面的知识,主要靠业余时间看国外的书,比如ISL,ESL还有一堆动物书,算法了解也就限于书上这些。目前的工作是数据挖掘,其实多数时间还是写hql和Python处理数据……建模调用R和scikit里的包;coding经验主要是数据处理和可视化,也能用Python写出主流算法的toy代码。数学基础 […]

查看全文

如何评价k

和其他主流的聚类算法有什么区别?为什么数据挖掘和机器学习的书籍中都很少提到?

查看全文

陈立人这个蓄水池抽样写错了么?

图灵社区 : 阅读 : 忘我之乘积;及蓄水池抽样精妙解法我觉得和很多帖子的都不同,正确的应该用第i(i>k)个元素替换第randi = rand(1, i)个(if randi <= k)是k/i 的概率,而不替换是(i-k)/i的概率 而陈立人替换概率写成1/i了 (所有下标1-based)

查看全文

随机森林中是怎么对数据进行随机选择的?

在随机森林中使用Bagging方法,比如有1000个样本,每一次采用Bootstrap采样(有放回),那么就是说每次选1000个(有重复),但是有的样本在采样中没有被选择过,就把它们当作out-of-bag来进行测试,是这样吗?还是在1000个样本中随机选择一些,比如500个,然后用剩下的500个进行测试?

查看全文

写一篇关于分类预测算法论文的问题?

读过《机器学习实战》和《数据挖掘导论》,本科也是学习过统计学,R语言,接触过python,自己本来也就是计算机本科。由于联系论文老师一直得不到回 复(可能是本科论文水,老师太忙没功夫),自己想写一篇比较有水平的论文,不要太高深(自己全看不懂没意思),但是有一定挑战性。 自己想到了3个方向:1.由于分类算法比较多,可以整理出来然后比较优劣性。 2.关注于某一个算法,比如SVM,研究一下数学原理。 3.编程实现一些算法。 所以自己也是比较踌躇,需要一些指导意见,由于自己也是初学者,也可有其他的方向。

查看全文