求问如何保证文本的特征向量维数一样大?
问题:目前在做微博聚类,对微博分词之后,采用Google开源的Word2Vec进行词向量的训练,每个词对应一个1*N维的向量,然后对微博进行关键 词提取,由于微博的长度不一致导致会产生每个微博提取出来的关键词个数不同,怎么才能保证每条微博由关键词词向量构成的特征向量维数一样呢?除了将每个词 向量加起来求平均还没有有其他方法?
查看全文基于引文的论文推荐系统的相似矩阵如何有效的形成?
本人刚接触文本数据的学习,目前想得到有关论文数据集的几个相似矩阵,论文数据信息(已经筛选,剔除了信息不完整的论文)已插入数据库(mysql)中,总共含有26篇论文数据。存储信息如下:id是插入数据库时形成的id;paper是论文题目;name是文章的所有作者;date是出版时间;journal是出版机构;indexx是论文在整个论文数据集中的索引;qoutee是该论文的引用;(是被引用论文在数据集中索引,因一篇论文有多篇引用,故以#%分隔开,)abstra是论文的摘要;需求:现在想得到论文之间的互相引用情况,形成一个26万X26万的矩阵,如果论文A引用B,等同于B被A引用,则矩阵中P[A][B]=1,同时P[B][A]=-1,如果A […]
查看全文R下怎么加载本地的zip包?
在做文本挖掘时,rwordseg包加载不了,搜索解决办法中有人建议下载在本地,再用R加载本地的zip包即可,但是要怎么加载呢?望知之者能回答一下,万分感谢!
查看全文spss modeler支持中文的文本挖掘吗?效果如何?
spss modeler14.1开始有文本挖掘的出现,不知道对中文方面支不支持?如果支持,效果如何?(话说熟悉其英文文本挖掘的大神也可以介绍介绍,对modeler在文本挖掘方面不是很了解)
查看全文文本分类中是把一个文档作为一个文件然后对其处理?
1.文本分类中,对其进行分词句法标注等等操作的时候是把一个文本当作一个文件处理嘛?3.文本分类的分类符号(1,0)在哪里标注,也写到那个文本文件里嘛?2.那对于句子分类,是不是就要把一个句子当作一个文件处理呢?
查看全文python(x,y)在linux系统怎么安装?
做词向量分析,在本地Windows系统已经实现了,但是本地内存4G,训练词向量时经常出现MemoryError。想在虚拟机上安装python(x,y),然后安装gensim,做词向量分析,但虚拟机是linux系统。所以想请教下,如何在linux系统上安装python(x,y),是不是有专门的linux版本,有的话,提供给我。谢谢啦。
查看全文