最近在用xgboost进行数据分类,xgboost是最近很牛逼的一个boost实现,在很多数据挖掘比赛(比如kaggle)上都大放异彩我使用的是xgboost的java版本,用了它自带的例子没有任何问题,分类很正确,但是用自己生成的数据测试就不对劲了,我生成了一组用肉眼就可以区分的数据1,1,1,1,1,1,1,21,1,1,1,1,1,1,2…1,1,1,1,1,1,1,22,2,2,2,2,2,2,42,2,2,2,2,2,2,4…2,2,2,2,2,2,2,4并转换成了SVM格式的数据文件,结果用xgboost训练时只有50%的准确率,这是为毛啊?xgboost的参数我都是按照默认来的没动过(̶ […]
查看全文数据分析有希望转算法工程师吗?
由于没接触过算法工程师,不清楚自己有没有转型的可能性,有些迷茫。请问什么样的职位或职业经历比较有帮助?有哪些职位可以作为过度或学习路径?多谢!说说本人经历:# — begin统计本科毕业,不过刚毕业的4年里,工作经历涉及更多的是商业分析和dw相关的项目;有时会用R,Python的处理数据;hql和streaming也没问题。机器学习方面的知识,主要靠业余时间看国外的书,比如ISL,ESL还有一堆动物书,算法了解也就限于书上这些。目前的工作是数据挖掘,其实多数时间还是写hql和Python处理数据……建模调用R和scikit里的包;coding经验主要是数据处理和可视化,也能用Python写出主流算法的toy代码。数学基础 […]
查看全文Offer比较:华为供应链和厦门亿联音频算法工程师哪个好?
各位好,我是物理系应届硕士毕业生,目前纠结于工作上的选择,希望有了解上述两类岗位的给点意见,跪谢
查看全文学会用聚类算法进行数据挖掘需要怎样的数学基础?
目前有一个需要做的工作是基于经纬度进行聚类,数学只学过微积分,线代,概率统计,复变这样的基础课程。
查看全文陈立人这个蓄水池抽样写错了么?
图灵社区 : 阅读 : 忘我之乘积;及蓄水池抽样精妙解法我觉得和很多帖子的都不同,正确的应该用第i(i>k)个元素替换第randi = rand(1, i)个(if randi <= k)是k/i 的概率,而不替换是(i-k)/i的概率 而陈立人替换概率写成1/i了 (所有下标1-based)
查看全文offer比较:sap中国研究院software engineer vs 拉勾网大数据挖掘算法工程师?
拉勾的是核心团队,但sap感觉毕竟高大上一点。求分析!主要从以后的发展角度。例如5年,10年,20年后的情况。非常感谢!!!
查看全文随机森林中是怎么对数据进行随机选择的?
在随机森林中使用Bagging方法,比如有1000个样本,每一次采用Bootstrap采样(有放回),那么就是说每次选1000个(有重复),但是有的样本在采样中没有被选择过,就把它们当作out-of-bag来进行测试,是这样吗?还是在1000个样本中随机选择一些,比如500个,然后用剩下的500个进行测试?
查看全文写一篇关于分类预测算法论文的问题?
读过《机器学习实战》和《数据挖掘导论》,本科也是学习过统计学,R语言,接触过python,自己本来也就是计算机本科。由于联系论文老师一直得不到回 复(可能是本科论文水,老师太忙没功夫),自己想写一篇比较有水平的论文,不要太高深(自己全看不懂没意思),但是有一定挑战性。 自己想到了3个方向:1.由于分类算法比较多,可以整理出来然后比较优劣性。 2.关注于某一个算法,比如SVM,研究一下数学原理。 3.编程实现一些算法。 所以自己也是比较踌躇,需要一些指导意见,由于自己也是初学者,也可有其他的方向。
查看全文