现在一提起大数据,基本就等同于 Hadoop / Spark / Storm 等一系列 JVM 体系下的开源架构;而如果说要用 C/C++ 的话,基本就是还在造轮子的阶段,差距十分悬殊。是不是有一天也会像 Nginx 的诞生一样,在 Apache 如日中天的时候,有一个神秘的 C 高手团队造就了 Nginx 现在的地位。个人的臆想是,在 Linux 文件系统上再用 C 做一个文件管理层(据我了解阿里云和百度已经是这样干的),分布式通信可以借鉴 Thrift 这样的 RPC 框架,shell 层可以考虑使用 C++ / Python等相对敏捷的语言来实现,还有 MySQL、Redis 这样的亲戚可以一并拉入来实现部分文件索引工作。计算 […]
查看全文有没有用于app推荐技术研究的数据集?
比如:1. Tapestry电子邮件分类过滤,解决Xerox公司在Palo Alto的研究中心资讯过载问题。2. GroupLens推荐系统,在线社区,移动及普适技术,数字图书馆,和地理信息系统,见大名鼎鼎的MovieLens电影评分推荐。3. Netflix:研究影视视频在线推荐
查看全文主成分分析后怎么进行logistcs回归?
将所有的自变量分成多个自变量集,分别进行主成分分析,分别得到每个自变量集相应的pc,然后怎么利用每个变量集的pc做logistic回归?
查看全文怎样用R语言计算一组词的jaccard相似度?
刚开始用R处理文本挖掘方面的问题,想请教一下怎样用R算一组词的jaccard相似度。并且设置一个常数,根据相似度与这个常数的比较对词聚类,并用字符少的词语替换字符多的词语。谢谢。
查看全文同样是跑随机森林,为什么用单机的R跑和在服务器上用Spark的MLlib结果差好多?
原数据只是抽出来的一个3万来条的样本,大约60%为0,40%为1。单机用的是R下的randomForest包,准确率能有85%,这个结果还是蛮可靠的。但是同样的数据,放到服务器上用Spark的MLlib跑,准确率只有60%左右,混淆矩阵也看不出问题。分类型变量也用categoricalFeaturesInfo命令注明了,这是怎么回事呢?
查看全文这种透明LOWPOLY效果是怎么做出来的?
还看过一张类似的 是一只手的海报 这种效果不仅是因为LOWPOLY好看 跟色块不一样,是点和线构成的 科技感超强 不知道用PS 或者AI能否做出来?还是说这其实只是一个视频截图?
查看全文已知经纬度,求距离中心点1km的其他点?
已知各个地点的经纬度,现想求距离A点1km范围内的所有点的一些特征(自变量)是否对A的某个变量(因变量)产生影响?用R语言的代码应该是?
查看全文如何用R语言画广东省地图(划分出21个地级市的边界)?
问题描述:除了画出广东省的轮廓,还要画出广东省21个地级市的边界,我按照这篇文章的做法:Editor: R绘制中国地图,并展示流行病学数据画出来的图是这样的:画出来的边界划分太详细了,我试着先画出各个地级市的图,再用ggplot2添加在一起,貌似数据有缺失,请问要怎么画?求大家推荐一些相关文章,或者给一点思路.问题已解决,参见@Allen Shen的回答,感谢各位的关注和回答。
查看全文