帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

LSA和有监督的文本分类能否相结合?

之前一直把心思放在有监督的文本分类学习上。最近将一些概念复习时发现了LSA,PLSA这些东东,但是无奈不是非常得明白(主要是应用上的,例如输入是文档词条矩阵,那么输出呢?经过SVD分解之后的矩阵?)。想求教下各位大大,现在有没有相关的应用场景?LSA和监督分类算法结合的?

查看全文

求问如何保证文本的特征向量维数一样大?

问题:目前在做微博聚类,对微博分词之后,采用Google开源的Word2Vec进行词向量的训练,每个词对应一个1*N维的向量,然后对微博进行关键 词提取,由于微博的长度不一致导致会产生每个微博提取出来的关键词个数不同,怎么才能保证每条微博由关键词词向量构成的特征向量维数一样呢?除了将每个词 向量加起来求平均还没有有其他方法?

查看全文

基于引文的论文推荐系统的相似矩阵如何有效的形成?

本人刚接触文本数据的学习,目前想得到有关论文数据集的几个相似矩阵,论文数据信息(已经筛选,剔除了信息不完整的论文)已插入数据库(mysql)中,总共含有26篇论文数据。存储信息如下:id是插入数据库时形成的id;paper是论文题目;name是文章的所有作者;date是出版时间;journal是出版机构;indexx是论文在整个论文数据集中的索引;qoutee是该论文的引用;(是被引用论文在数据集中索引,因一篇论文有多篇引用,故以#%分隔开,)abstra是论文的摘要;需求:现在想得到论文之间的互相引用情况,形成一个26万X26万的矩阵,如果论文A引用B,等同于B被A引用,则矩阵中P[A][B]=1,同时P[B][A]=-1,如果A […]

查看全文

文本处理同义词替换中的多义词问题?

想对处理的文本中的同义词进行替换,拟采用的方案是,比如读入同义词列表{Ah14C02= 心肝 宝贝 心肝宝贝 宠儿 命根子 掌上明珠 命根 宝贝儿},然后扫描文本,将出现在这个列表中的所有词语都替换为第一个:心肝,或者前面的代码:Ah14C02。但在实际的操作中却遇到了问题,同一个词存在多义,比如对于前面的“宝贝”,还同时存在于列表{Ba08A01= 宝物 宝贝 宝 珍 琛 珍品 珍宝 至宝 无价宝 瑰}中,这时候如果文本中遇到了“宝贝”这个词就不知道应该替换为“心肝”还是“宝物”了。因为自己不是相关方向的,谷歌也没有找到其他人遇到相关的问题,所以来知乎寻求一下大家的帮助,感谢!

查看全文

短文本分类的解决方案?

刚开始看短文本分类(就是对于短信微博等进行分类),之前是用CHI(自己做了些修改)+TFIDF+NB(后两步是使用的spark完成的),现在刚开始看短文本分类,发现找到的短文分类的资料好像有点五花八门,之前在知乎上看到有人推荐使用LDA,现在自己看了看LDA,发现数学原理实在是太多了,请问大家能不能提供点思路,看的头疼

查看全文

R下怎么加载本地的zip包?

在做文本挖掘时,rwordseg包加载不了,搜索解决办法中有人建议下载在本地,再用R加载本地的zip包即可,但是要怎么加载呢?望知之者能回答一下,万分感谢!

查看全文