基于引文的论文推荐系统的相似矩阵如何有效的形成？

理由

举报取消

本人刚接触文本数据的学习，目前想得到有关论文数据集的几个相似矩阵，论文数据信息（已经筛选，剔除了信息不完整的论文）已插入数据库（mysql）中，总共含有26篇论文数据。存储信息如下：id是插入数据库时形成的id；paper是论文题目；name是文章的所有作者；date是出版时间；journal是出版机构；indexx是论文在整个论文数据集中的索引；qoutee是该论文的引用；（是被引用论文在数据集中索引，因一篇论文有多篇引用，故以#%分隔开，）abstra是论文的摘要；需求：现在想得到论文之间的互相引用情况，形成一个26万X26万的矩阵，如果论文A引用B，等同于B被A引用，则矩阵中P[A][B]=1,同时P[B][A]=-1，如果A和B没有引用关系，则P[A][B]=0,P[B][A]=0;A和B为数据库中的id；本人目前的办法：利用论文的索引（切割#index得到索引）去和引用做字符串比较（以#%切割），得出该论文的引用其他论文的情形(即某一论文其他论文等于1的情形)；得-1时，是利用引用(以#%切割)去查询论文的索引，相等就为P[A][B]=-1;问题：得-1时由于每一次都要查询整个数据库（由于之前挑选数据剔除了不合格的论文），导致得出矩阵的速度很慢，例如一篇论文引用了七篇论文，就得用这七篇论文去查询整个数据库其次，26万条信息，目前得出矩阵的一行速度很缓慢，几乎是一两分钟得出一条，希望有处理文本数据或coder高手们给出方法和意见，文本数据属于小数据，在个人电脑上如何快速高效的得出这个矩阵。求指点！叙述较多，还请谅解，如有对提问不懂还麻烦在评论中给出疑问。谢谢~~~

2017年12月23日 1 条回复 951 次浏览

挖掘,推荐,数据库,文本,算法,系统

找回密码

基于引文的论文推荐系统的相似矩阵如何有效的形成？

发起人：许洪波 初入职场

回复 ( 1 )

我来回答

帐户注册

登录

找回密码

基于引文的论文推荐系统的相似矩阵如何有效的形成？

发起人：许洪波 初入职场

回复 ( 1 )

我来回答

发起人：许洪波初入职场