帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

求问如何保证文本的特征向量维数一样大?

问题:目前在做微博聚类,对微博分词之后,采用Google开源的Word2Vec进行词向量的训练,每个词对应一个1*N维的向量,然后对微博进行关键 词提取,由于微博的长度不一致导致会产生每个微博提取出来的关键词个数不同,怎么才能保证每条微博由关键词词向量构成的特征向量维数一样呢?除了将每个词 向量加起来求平均还没有有其他方法?

查看全文

基于引文的论文推荐系统的相似矩阵如何有效的形成?

本人刚接触文本数据的学习,目前想得到有关论文数据集的几个相似矩阵,论文数据信息(已经筛选,剔除了信息不完整的论文)已插入数据库(mysql)中,总共含有26篇论文数据。存储信息如下:id是插入数据库时形成的id;paper是论文题目;name是文章的所有作者;date是出版时间;journal是出版机构;indexx是论文在整个论文数据集中的索引;qoutee是该论文的引用;(是被引用论文在数据集中索引,因一篇论文有多篇引用,故以#%分隔开,)abstra是论文的摘要;需求:现在想得到论文之间的互相引用情况,形成一个26万X26万的矩阵,如果论文A引用B,等同于B被A引用,则矩阵中P[A][B]=1,同时P[B][A]=-1,如果A […]

查看全文

R下怎么加载本地的zip包?

在做文本挖掘时,rwordseg包加载不了,搜索解决办法中有人建议下载在本地,再用R加载本地的zip包即可,但是要怎么加载呢?望知之者能回答一下,万分感谢!

查看全文

python(x,y)在linux系统怎么安装?

做词向量分析,在本地Windows系统已经实现了,但是本地内存4G,训练词向量时经常出现MemoryError。想在虚拟机上安装python(x,y),然后安装gensim,做词向量分析,但虚拟机是linux系统。所以想请教下,如何在linux系统上安装python(x,y),是不是有专门的linux版本,有的话,提供给我。谢谢啦。

查看全文