帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

接触哪些数据后让你感觉这个社会个人资料泄露太恐怖了?

最近工作中接触了大批量的用户资料,涉及住户名字、身份证号、手机号、子女配偶姓名、家庭住址(精确到房间号)等等!由于数据量比较凌乱,我自己整理了下,从中分析出了此人的消费层级、收入情况、简单社会地位等等信息!分析得到的结果太过令人惊恐,这个社会真是太恐怖了,大数据用好是好事,用不好。。。

查看全文

spark中的mapper和reducer个数是否可以配置?

如图,这是网上一张讲解shuffle的经典图,不过我感觉这个图有点问题。spark中的task分为两类,一类是shuffleMapTask,另一类是resultTask。shuffle的过程应该是在shuffleMapTask之间,或者shuffleMapTask和resultTask之间。也就是说,图中的map task应该对应的是以shuffle write为结尾的某个task过程,reduce task对应的是以shuffle read为开头的task过程。(不知道理解是否正确) 针对spark,我有一下几个问题,还请大牛帮答疑: 1)我记得hadoop mapreduce中的map和reduce个数是可以设定的。在spark […]

查看全文

因某组数据存在缺失项,如何用其他几组数据来替代?

C1至C4是反映某现象的4个指标,每个指标有各自的权重,最终的指数C = Ci * 该指标权重。现在由于C2、C3指标在2013年、2014年数据缺失,因此在计算2013年、2014年的指数C时,准备将C2、C3的权重赋予C1、C4,以此得到妥协的、调整后的2013年、2014年的指数C。至少这样还能勉强得到指数C从2008年—2014年的变化情况。现在的问题是:如何用C1、C4的组合分别表示C2、C3,即如何构造两个回归函数?是回归函数么?。。。这块真的不是很懂,请大家帮忙一看~!函数一:C2 = f(C1,C4)函数二:C3 = f(C1,C4)具体数据和在Excel中绘制的散点图如下,准备用SPSS构造回归函数。P.S. C1 […]

查看全文

如何成为一个年薪50万+ 的数据分析师?

跳入了挖掘机这一大坑一段时间,本来是想往机器学习方向走的,但是我偏金融学的背景时候不被机器学习方向的岗位欢迎,所以往偏业务方向发展。感觉这一起薪还可以,但是看到身边做互联网和金融销售的同学发展的不错,月收入毕业几个月就到7000+的不少,所以想问问一个什么样的数据分析师能够达到50万年薪+

查看全文

怎么看惠普大数据研发基地落户青岛?是不是像济宁HP一样属于圈地项目?

留学党+程序员,因为确定准备回国发展,希望离家近一些所以比较关注青岛的IT行业。虽然深知岛城无科技,除了阿朗基本没什么成气候的单位。而且阿朗要被诺基亚收购,估计到时候阿朗青岛有被砍掉的可能。自己本身就是搞机器视觉和机器学习的,所以对岛城这个项目十分感兴趣。这项目是山东省政府牵头的,从新闻上看估计这个R&D中心最快进行至少需要五年以上才能完善。惠普软件全球大数据应用研究及产业示范基地落户青岛http://tv.cntv.cn/video/C10375/042c52efaef344e5b43ea9a43325010d问题是目前网上搜的信息基本上来自于青岛政府方面的新闻,工程现在还没有进度。在惠普中英文网站上我都查过,没发现相关信 […]

查看全文