编程语言 - 12Reads管理问答

C/C++ 是否存在大数据生态圈，为什么？

SimonS 2017-08-23 2033 次浏览

现在一提起大数据，基本就等同于 Hadoop / Spark / Storm 等一系列 JVM 体系下的开源架构；而如果说要用 C/C++ 的话，基本就是还在造轮子的阶段，差距十分悬殊。是不是有一天也会像 Nginx 的诞生一样，在 Apache 如日中天的时候，有一个神秘的 C 高手团队造就了 Nginx 现在的地位。个人的臆想是，在 Linux 文件系统上再用 C 做一个文件管理层（据我了解阿里云和百度已经是这样干的），分布式通信可以借鉴 Thrift 这样的 RPC 框架，shell 层可以考虑使用 C++ / Python等相对敏捷的语言来实现，还有 MySQL、Redis 这样的亲戚可以一并拉入来实现部分文件索引工作。计算 […]

查看全文

有没有用于app推荐技术研究的数据集？

许名 2017-08-21 1114 次浏览

比如：1. Tapestry电子邮件分类过滤，解决Xerox公司在Palo Alto的研究中心资讯过载问题。2. GroupLens推荐系统，在线社区，移动及普适技术，数字图书馆，和地理信息系统，见大名鼎鼎的MovieLens电影评分推荐。3. Netflix：研究影视视频在线推荐

查看全文

主成分分析后怎么进行logistcs回归？

Kerouac 2017-08-19 1488 次浏览

将所有的自变量分成多个自变量集，分别进行主成分分析，分别得到每个自变量集相应的pc，然后怎么利用每个变量集的pc做logistic回归？

查看全文

怎样用R语言计算一组词的jaccard相似度？

王诗峣 2017-08-17 1450 次浏览

刚开始用R处理文本挖掘方面的问题，想请教一下怎样用R算一组词的jaccard相似度。并且设置一个常数，根据相似度与这个常数的比较对词聚类，并用字符少的词语替换字符多的词语。谢谢。

查看全文

同样是跑随机森林，为什么用单机的R跑和在服务器上用Spark的MLlib结果差好多？

老胡 2017-08-05 1032 次浏览

原数据只是抽出来的一个3万来条的样本，大约60%为0，40%为1。单机用的是R下的randomForest包，准确率能有85%，这个结果还是蛮可靠的。但是同样的数据，放到服务器上用Spark的MLlib跑，准确率只有60%左右，混淆矩阵也看不出问题。分类型变量也用categoricalFeaturesInfo命令注明了，这是怎么回事呢？

查看全文

这种透明LOWPOLY效果是怎么做出来的？

Secant 2017-08-04 2148 次浏览

还看过一张类似的是一只手的海报这种效果不仅是因为LOWPOLY好看跟色块不一样，是点和线构成的科技感超强不知道用PS 或者AI能否做出来？还是说这其实只是一个视频截图？

查看全文

有没有信息可视化的开源项目？关于Processing的？

李柳君 2017-08-03 966 次浏览

processing

查看全文

已知经纬度，求距离中心点1km的其他点？

Bella 2017-07-31 683 次浏览

已知各个地点的经纬度，现想求距离A点1km范围内的所有点的一些特征（自变量）是否对A的某个变量（因变量）产生影响？用R语言的代码应该是？

查看全文

如何用R语言画广东省地图(划分出21个地级市的边界)？

unstory 2017-07-23 1702 次浏览

问题描述：除了画出广东省的轮廓，还要画出广东省21个地级市的边界，我按照这篇文章的做法：Editor: R绘制中国地图，并展示流行病学数据画出来的图是这样的：画出来的边界划分太详细了，我试着先画出各个地级市的图，再用ggplot2添加在一起，貌似数据有缺失，请问要怎么画？求大家推荐一些相关文章，或者给一点思路.问题已解决，参见@Allen Shen的回答，感谢各位的关注和回答。

查看全文

BAT做数据挖掘都用什么语言呀？

邱昊宇 2017-07-21 907 次浏览

查看全文

1 … 5 6 7 … 10

帐户注册

登录

找回密码