分享
基于引文的论文推荐系统的相似矩阵如何有效的形成?
本人刚接触文本数据的学习,目前想得到有关论文数据集的几个相似矩阵,论文数据信息(已经筛选,剔除了信息不完整的论文)已插入数据库(mysql)中,总共含有26篇论文数据。存储信息如下:id是插入数据库时形成的id;paper是论文题目;name是文章的所有作者;date是出版时间;journal是出版机构;indexx是论文在整个论文数据集中的索引;qoutee是该论文的引用;(是被引用论文在数据集中索引,因一篇论文有多篇引用,故以#%分隔开,)abstra是论文的摘要;需求:现在想得到论文之间的互相引用情况,形成一个26万X26万的矩阵,如果论文A引用B,等同于B被A引用,则矩阵中P[A][B]=1,同时P[B][A]=-1,如果A和B没有引用关系,则P[A][B]=0,P[B][A]=0;A和B为数据库中的id;本人目前的办法:利用论文的索引(切割#index得到索引)去和引用做字符串比较(以#%切割),得出该论文的引用其他论文的情形(即某一论文其他论文等于1的情形);得-1时,是利用引用(以#%切割)去查询论文的索引,相等就为P[A][B]=-1;问题:得-1时由于每一次都要查询整个数据库(由于之前挑选数据剔除了不合格的论文),导致得出矩阵的速度很慢,例如一篇论文引用了七篇论文,就得用这七篇论文去查询整个数据库其次,26万条信息,目前得出矩阵的一行速度很缓慢,几乎是一两分钟得出一条,希望有处理文本数据或coder高手们给出方法和意见,文本数据属于小数据,在个人电脑上如何快速高效的得出这个矩阵。求指点!叙述较多,还请谅解,如有对提问不懂还麻烦在评论中给出疑问。谢谢~~~
回复 ( 1 )
可以通过图数据库Neo4j