帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

应届生想应聘bat的数据分析或者数据挖掘岗,该如何准备?

题主是一名普通211学校的统计学研二学生,本科专业是渣二本的信息与计算科学。 什么样的条件才是bat这类公司(最好是在成都)所需要的呢?我数据分析和数据挖掘的都会一点,但不深Excel,spss,R,matlab,SQL,Python等这些工具都只能基本能用,没几个学的好的,不百度谷歌的话,只能写点小程序(我说的小程序是指一百行以内的代码 )理论方面还稍微好点,统计的和统计学习的基础知识都还有点,就像机器学习的模型推导在我看来比实用编程亲切多了。 现在在一家大数据公司实习,当然只是名义上的,根本接触不到项目只是在SQL查查数据,或者做做因子分析,k-means聚类,决策树什么的。Hadoop和spark就别想了,当然我也不会。 那么 […]

查看全文

有人使用过xgboost吗?

最近在用xgboost进行数据分类,xgboost是最近很牛逼的一个boost实现,在很多数据挖掘比赛(比如kaggle)上都大放异彩我使用的是xgboost的java版本,用了它自带的例子没有任何问题,分类很正确,但是用自己生成的数据测试就不对劲了,我生成了一组用肉眼就可以区分的数据1,1,1,1,1,1,1,21,1,1,1,1,1,1,2…1,1,1,1,1,1,1,22,2,2,2,2,2,2,42,2,2,2,2,2,2,4…2,2,2,2,2,2,2,4并转换成了SVM格式的数据文件,结果用xgboost训练时只有50%的准确率,这是为毛啊?xgboost的参数我都是按照默认来的没动过(̶ […]

查看全文

样本量少, 方差大,能假设其服从正态分布吗?

实际背景:预测一个用户的购买时间可用数据:历史购买时间准备解法:算出历史购买时间间隔,假设其符合正态分布。计算最近一次购买时间距今天的间隔时间。最后计算置信区间blablabla. P.s 整体的用户购买间隔不符合正态分布,所以单独计算每一个用户。那么问题来了:用户的购买次数不多,也就3 ~ 10次(即样本量只有2~9且方差大)。所以可以用上面解法么?

查看全文