帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

基于引文的论文推荐系统的相似矩阵如何有效的形成?

本人刚接触文本数据的学习,目前想得到有关论文数据集的几个相似矩阵,论文数据信息(已经筛选,剔除了信息不完整的论文)已插入数据库(mysql)中,总共含有26篇论文数据。存储信息如下:id是插入数据库时形成的id;paper是论文题目;name是文章的所有作者;date是出版时间;journal是出版机构;indexx是论文在整个论文数据集中的索引;qoutee是该论文的引用;(是被引用论文在数据集中索引,因一篇论文有多篇引用,故以#%分隔开,)abstra是论文的摘要;需求:现在想得到论文之间的互相引用情况,形成一个26万X26万的矩阵,如果论文A引用B,等同于B被A引用,则矩阵中P[A][B]=1,同时P[B][A]=-1,如果A […]

查看全文

hadoop,spark在虚拟机集群里跑还有性能上的优势吗?

如题,系统搭建在公司的虚拟机集群上,这样还有木有性能上的优势?或者说这样搭建分布式计算系统还有意义么?反正最终都是服务器的内存和硬盘,我感觉用多线程,多进程的老方法,直接在服务器上跑,省去那些集群间的调度和网络io,是不是会更快一些?小白不懂,求大侠相助

查看全文