我个人觉得,以数据挖掘的计算机博士为例,在读博期间,大约有两种模式。模式A:接触许多实际的数据挖掘项目,成功地做完项目,解决了实际问题,从而发一篇paper。模式B:研究数据挖掘的算法,看paper找idea,然后进行算法accuracy的提升,或者自己提出一个好算法。实验结果在public datasets上跑得好就发一篇paper。所以我的疑问是,对同样一个资质水平的学生来说,这两种模式哪个就读时更好的成长?哪一种毕业后在工业界更具竞争力?我自己认为读博时B类型更好,因为能打下深厚的数据挖掘基础。而我导师却认为A在工业界更有竞争力,项目经历丰富。各位的看法是?
查看全文随机森林中是怎么对数据进行随机选择的?
在随机森林中使用Bagging方法,比如有1000个样本,每一次采用Bootstrap采样(有放回),那么就是说每次选1000个(有重复),但是有的样本在采样中没有被选择过,就把它们当作out-of-bag来进行测试,是这样吗?还是在1000个样本中随机选择一些,比如500个,然后用剩下的500个进行测试?
查看全文写一篇关于分类预测算法论文的问题?
读过《机器学习实战》和《数据挖掘导论》,本科也是学习过统计学,R语言,接触过python,自己本来也就是计算机本科。由于联系论文老师一直得不到回 复(可能是本科论文水,老师太忙没功夫),自己想写一篇比较有水平的论文,不要太高深(自己全看不懂没意思),但是有一定挑战性。 自己想到了3个方向:1.由于分类算法比较多,可以整理出来然后比较优劣性。 2.关注于某一个算法,比如SVM,研究一下数学原理。 3.编程实现一些算法。 所以自己也是比较踌躇,需要一些指导意见,由于自己也是初学者,也可有其他的方向。
查看全文阿里天池竞赛S1怎么解决运算问题?
目前时间是2016年3月12日,阿里天池新出了流行音乐预测比赛。 做过天池的都知道S1是需要本地运算提交结果,S2是在ODPS平台上跑的。本人之前在Kaggle和DC上水过一些数据量小的比赛,天池其实是第一次接触。比较让我头疼的是400M的数据,500多万条的记录我的电脑的计算能力肯定是吃不消的。有些伸手党吧,主要也是想看看有没有和我境遇相同的兄弟。 大家是选择花钱租云平台的集群还是都是有实验室的集群呢?当然有别的方法就更好啊,求教知乎的大大们,第一次提问痕迹很关键!
查看全文alphago的成功会损害围棋这项运动吗?
今天,李世石输掉了人机大战的第一局,是否意味着围棋会如国际象棋一样迅速衰落?另一方面,人类发明了汽车,可并不妨碍人们对于男子100米赛跑的狂热,人们不会因为机器比人跑得快就放弃了对自身极限的探索,可人类对棋类竞技的态度却为何与之不同?
查看全文