数据预处理的主要任务包括:数据清洗 数据集成 数据转换 数据归约 数据离散化。为什么只有“数据集成”单独出了书,而剩下的却没有?(我不是处女座)是因为“数据集成”的内容已经多到可以单独成册了,还是因为“数据集成”很重要?PS:大家发现了吗,华章计算机科学丛书,花纹可以拼接到一起,如下图~[img=1112832840]
查看全文个人信息如何被泄露,谁又应该为其买单?
现在越来越多的个人信息被收集和泄漏,尤其大数据下个人信息被整理和共享,似乎个人没有了隐私。比如电商平台的顾客信息共享,题主这几天已经接到三起以订单为名义上诈骗电话。现在是消费者个人为信息的泄露买单,而究竟是谁应该为其负责,又应该如何保护大众的信息?
查看全文星环科技招人要求好像很高,刚投了简历,求问有人知道都面些什么啊?要求大数据和云计算相关的经验吗?
星环科技是一家做Hadoop平台发行版的创业公司,最近一直在招人。应该有大神面过这家公司吧。
查看全文大数据环境下档案迁移问题的研究?
最近老师出的题目,感觉不知道该从什么方面下手,上网查了很多有关大数据的,但是总感觉这需要一个迁移系统,无奈论迁移系统做不到啊。所以请大家帮帮忙有木有好的切入点理论上的,然后写一篇毕业论文。急求,救命
查看全文如果火车上的东西价格是我们平时周边的普通价格的话 铁道部的这个板块是否不能盈利?
难道就一定要贵一倍吗 火车上的东西的价格是谁制定的 依据是什么
查看全文大型网站是不是意味着要日夜不停地往服务器里加硬盘?
别笑,严肃点,我是认真的!做为完全挨踢外行,一直没能想明白大型的网站是如何存储数据的。尤其像 amazon、BAT 类的巨头以及各种云服务商,每天产生的数据多到以 PB 计,但目前普通用户在市面上能看到的硬盘也就是 8T 而已,那么问题来了,这些网站也像我们普通用户一样,存满了就不停地加电脑或硬盘吗?
查看全文Deep Learning 的专家如此急缺,它难在何处?
不可否认,人工神经网络中有一些思想是很巧妙的。但正如SVM, Linear Regression, Decision Tree, Boosting Tree 一样,他们都有各自巧妙的思想,但数学并不复杂。通过具象来深入理解其原理和调参也并不复杂。常用的技巧有,train, predict,feature engineering,bootstrap 等等。机器学习作为一种计算机科学分支,其数学概念的复杂度低于统计学。机器学习用的是比较直观的想法。有许多trick,例如loss function, kernel,activation function, back propagation。那么,机器学习,或者深度学习,难点究竟在哪里呢?1 […]
查看全文