在读一篇统计方面的paper, 主要在探讨predictive model和explanatory model的区别。其中作者举了一个例子,2009年Netflix举办了奖金为一百万美金的一个竞赛,目的是优化给用户的作品推荐。作者指出,大部分参赛队伍都有CS背景,而非统计背景。作者并没有给出看法或者解释,但个人还是很好奇为何会有这个现象。paper出处:http://www.stat.berkeley.edu/~aldous/157/Papers/shmueli.pdfnetflix竞赛结果出处:Netflix Prize: Forum / Grand Prize awarded to team BellKor’s Pragmati […]
查看全文pandas 当存在缺省值时如何修改一列的类型?
我使用pandas的read_csv方法中的dtype参数来设置某列的数据类型,因为有该列有缺省值而报错,最后让该列以pandas默认的数据类型读入,为float64,读入之后想利用astype(np.int64)修改,但同样因为有缺省值而报错
查看全文offer选择,FMCG还是互联网?
拿到2个offer,一个是广州一家中小型互联网公司 (做音乐类APP)的数据分析师,一个是一家大型FMCG公司的数据挖掘专员,有点纠结,求比较。- 互联网公司offer平台不错,广州是总部,产品也运营了很多年,感觉公司内部体系跟管理都挺不错,职位来自他们的数据中心,主要做类似数据产品经理的工作,接运营产品部门需求进行数据平台搭建,建模等工作,岗位对技术要求不高更偏向协调。喜欢这个offer的原因是1、互联网行业技术更成熟,数据分析能力提高更快 2、未来可以继续在互联网行业发展,前景较好,个人也不排斥这个行业 3、工作压力一般,加班较少,但是薪资较低福利较差,公司内部流动率比较高,流动的原因大部分是对公司发展前景的悲观;- FMCG公 […]
查看全文怎么样在大数据平台上建立的数据仓库中应用数据湖的方法论?
大数据,数据湖都是近来非常热门的话题,在大数据平台上建立数据仓库与在传统平台上建立数据仓库在方法论上到底有哪些区别,尤其是在模型层上,怎样将数据湖的概念应用到大数据平台上的数据仓库的建设中?期望大牛的解答
查看全文如何从小白走上金融分析师之路?
题主毕业后在银行柜台和理财岗位上工作过,但是一直想往金融分析师的道路上走,现在有点迷茫,直接找证券公司或者基金公司的研究分析岗,不够资格(本科学校一般,又不是研究生,加上没有相应的工作经验),但是如果继续在这个岗位上做下去,就越来越没有工作经验和优势。有没有知乎友能告诉我,从现在开始,我应该如何从现在的状况,转型到金融分析师的道路?(例如说现在应该从什么岗位做起,需要考怎样资格证,需要如何安排自己的进修计划等等)谢各位大神!知乎大法好!最好话题上日报!!!————————————— […]
查看全文为什么movielens数据集的时间戳每个用户那么密集?不科学啊
关于movielens数据集的时间戳表示的是用户提交评分的时间,为什么同一个用户时间戳如此密集,换算一下基本10天评价了200多部电影?而且同一个用户有些时间戳有重复的,同一时间评价好几部电影?
查看全文