文本 - 12Reads管理问答

LSA和有监督的文本分类能否相结合？

裘虬 2018-02-05 1268 次浏览

之前一直把心思放在有监督的文本分类学习上。最近将一些概念复习时发现了LSA，PLSA这些东东，但是无奈不是非常得明白（主要是应用上的，例如输入是文档词条矩阵，那么输出呢？经过SVD分解之后的矩阵？）。想求教下各位大大，现在有没有相关的应用场景？LSA和监督分类算法结合的？

查看全文

可以通过对招聘网站登出的不同岗位数量进行采集挖掘来判断行业趋势吗？技术上怎么做最容易实现？

sailor 2018-02-04 1757 次浏览

查看全文

求问如何保证文本的特征向量维数一样大？

乐呵呵 2018-01-01 1057 次浏览

问题：目前在做微博聚类，对微博分词之后，采用Google开源的Word2Vec进行词向量的训练，每个词对应一个1*N维的向量，然后对微博进行关键词提取，由于微博的长度不一致导致会产生每个微博提取出来的关键词个数不同，怎么才能保证每条微博由关键词词向量构成的特征向量维数一样呢？除了将每个词向量加起来求平均还没有有其他方法？

查看全文

文本聚类目前的研究现状是什么样的？如果想从事相关研究有哪些好的研究方向吗？

蓁蓁尔 2017-12-23 1027 次浏览

查看全文

本人刚接触文本数据的学习，目前想得到有关论文数据集的几个相似矩阵，论文数据信息（已经筛选，剔除了信息不完整的论文）已插入数据库（mysql）中，总共含有26篇论文数据。存储信息如下：id是插入数据库时形成的id；paper是论文题目；name是文章的所有作者；date是出版时间；journal是出版机构；indexx是论文在整个论文数据集中的索引；qoutee是该论文的引用；（是被引用论文在数据集中索引，因一篇论文有多篇引用，故以#%分隔开，）abstra是论文的摘要；需求：现在想得到论文之间的互相引用情况，形成一个26万X26万的矩阵，如果论文A引用B，等同于B被A引用，则矩阵中P[A][B]=1,同时P[B][A]=-1，如果A […]

查看全文

文本处理同义词替换中的多义词问题？

鱼小贱 2017-12-21 1502 次浏览

想对处理的文本中的同义词进行替换，拟采用的方案是，比如读入同义词列表{Ah14C02= 心肝宝贝心肝宝贝宠儿命根子掌上明珠命根宝贝儿}，然后扫描文本，将出现在这个列表中的所有词语都替换为第一个：心肝，或者前面的代码：Ah14C02。但在实际的操作中却遇到了问题，同一个词存在多义，比如对于前面的“宝贝”，还同时存在于列表{Ba08A01= 宝物宝贝宝珍琛珍品珍宝至宝无价宝瑰}中，这时候如果文本中遇到了“宝贝”这个词就不知道应该替换为“心肝”还是“宝物”了。因为自己不是相关方向的，谷歌也没有找到其他人遇到相关的问题，所以来知乎寻求一下大家的帮助，感谢！

查看全文

r语言读取文本文件乱码？

aiyaya 2017-12-14 1326 次浏览

文本挖掘，用r语言读取txt文件时news

查看全文

短文本分类的解决方案？

张勇 2017-12-08 1474 次浏览

刚开始看短文本分类（就是对于短信微博等进行分类），之前是用CHI(自己做了些修改)+TFIDF+NB（后两步是使用的spark完成的），现在刚开始看短文本分类，发现找到的短文分类的资料好像有点五花八门，之前在知乎上看到有人推荐使用LDA，现在自己看了看LDA，发现数学原理实在是太多了，请问大家能不能提供点思路，看的头疼

查看全文

用什么软件可以切割10个G的txt数据？

董凌菲 2017-12-01 2429 次浏览

题主是近似文科僧金融专业自己下了一个10G的股票数据想扔进matlab做分析结果txt文件本身就打不开因为是数据所以不敢乱用网络上的txt文本切割软件求大神相助多谢！

查看全文

R下怎么加载本地的zip包？

Robot 2017-11-28 1621 次浏览

在做文本挖掘时，rwordseg包加载不了，搜索解决办法中有人建议下载在本地，再用R加载本地的zip包即可，但是要怎么加载呢？望知之者能回答一下，万分感谢！

查看全文

1 … 3

找回密码

LSA和有监督的文本分类能否相结合？

可以通过对招聘网站登出的不同岗位数量进行采集挖掘来判断行业趋势吗？技术上怎么做最容易实现？

求问如何保证文本的特征向量维数一样大？

文本聚类目前的研究现状是什么样的？如果想从事相关研究有哪些好的研究方向吗？

基于引文的论文推荐系统的相似矩阵如何有效的形成？

文本处理同义词替换中的多义词问题？

r语言读取文本文件乱码？

短文本分类的解决方案？

用什么软件可以切割10个G的txt数据？

R下怎么加载本地的zip包？

帐户注册

登录

找回密码