帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

C/C++ 是否存在大数据生态圈,为什么?

现在一提起大数据,基本就等同于 Hadoop / Spark / Storm 等一系列 JVM 体系下的开源架构;而如果说要用 C/C++ 的话,基本就是还在造轮子的阶段,差距十分悬殊。是不是有一天也会像 Nginx 的诞生一样,在 Apache 如日中天的时候,有一个神秘的 C 高手团队造就了 Nginx 现在的地位。个人的臆想是,在 Linux 文件系统上再用 C 做一个文件管理层(据我了解阿里云和百度已经是这样干的),分布式通信可以借鉴 Thrift 这样的 RPC 框架,shell 层可以考虑使用 C++ / Python等相对敏捷的语言来实现,还有 MySQL、Redis 这样的亲戚可以一并拉入来实现部分文件索引工作。计算 […]

查看全文

有没有用于app推荐技术研究的数据集?

比如:1. Tapestry电子邮件分类过滤,解决Xerox公司在Palo Alto的研究中心资讯过载问题。2. GroupLens推荐系统,在线社区,移动及普适技术,数字图书馆,和地理信息系统,见大名鼎鼎的MovieLens电影评分推荐。3. Netflix:研究影视视频在线推荐

查看全文

同样是跑随机森林,为什么用单机的R跑和在服务器上用Spark的MLlib结果差好多?

原数据只是抽出来的一个3万来条的样本,大约60%为0,40%为1。单机用的是R下的randomForest包,准确率能有85%,这个结果还是蛮可靠的。但是同样的数据,放到服务器上用Spark的MLlib跑,准确率只有60%左右,混淆矩阵也看不出问题。分类型变量也用categoricalFeaturesInfo命令注明了,这是怎么回事呢?

查看全文

如何用R语言画广东省地图(划分出21个地级市的边界)?

问题描述:除了画出广东省的轮廓,还要画出广东省21个地级市的边界,我按照这篇文章的做法:Editor: R绘制中国地图,并展示流行病学数据画出来的图是这样的:画出来的边界划分太详细了,我试着先画出各个地级市的图,再用ggplot2添加在一起,貌似数据有缺失,请问要怎么画?求大家推荐一些相关文章,或者给一点思路.问题已解决,参见@Allen Shen的回答,感谢各位的关注和回答。

查看全文