作为一名苦逼的会计学博士生,手工从报表中摘数据实在是一件让人心力交瘁的事情。可能有人会问:为什么不用CSMAR之类的数据库呢?因为那些数据太大路货了,我们需要一些非标准化的、比较冷门的的数据。还有一些文本,需要人工把它们转化成数字的形式,比如董事会的个人教育背景,本科以下为0,本科为1,硕士为2,博士为3(当然,这个数据库里有,只是举个例子)。那么问题就来了:爬虫软件能不能从年报里抓取这些数据呢?如果是从网站中保存的PDF格式的年报呢?作为一个编程零基础的小白,实现难度大吗?大致需要几个月时间?
查看全文spss modeler支持中文的文本挖掘吗?效果如何?
spss modeler14.1开始有文本挖掘的出现,不知道对中文方面支不支持?如果支持,效果如何?(话说熟悉其英文文本挖掘的大神也可以介绍介绍,对modeler在文本挖掘方面不是很了解)
查看全文机器学习与搜索如何结合写一篇硕士学位论文?
是这样的,题主正在纠结硕士学位论文开题。因为实习的原因,手头上有一些 搜索的日志(数据量够大,特征够多)。 想利用这个资源,与机器学习相结合写一篇论文。(自学了一年机器学习。)目前本人找到了两个点,一个是排序学习(learning to rank)的研究, 但是这个算法方面不知道自己能不能提出什么创新点?第二个是一个相关query的推荐系统的应用实现。但是这个又 感觉不够新颖?这两个方面有比较符合要求(研究方面要有一定的创新点, 应用方面要有一定的技术含量。)的题目(方向)?除此之外,还有什么 比较好的方向和题目? 抛开搜索,有比较好的数据来源的应用点, 也可考虑。还有 不到一个月就要开题了。 由于某些原因,只能靠自己来想。 真心求 […]
查看全文文本分类中是把一个文档作为一个文件然后对其处理?
1.文本分类中,对其进行分词句法标注等等操作的时候是把一个文本当作一个文件处理嘛?3.文本分类的分类符号(1,0)在哪里标注,也写到那个文本文件里嘛?2.那对于句子分类,是不是就要把一个句子当作一个文件处理呢?
查看全文python(x,y)在linux系统怎么安装?
做词向量分析,在本地Windows系统已经实现了,但是本地内存4G,训练词向量时经常出现MemoryError。想在虚拟机上安装python(x,y),然后安装gensim,做词向量分析,但虚拟机是linux系统。所以想请教下,如何在linux系统上安装python(x,y),是不是有专门的linux版本,有的话,提供给我。谢谢啦。
查看全文数据挖掘与文本挖掘的关系是什么?有什么区别?包含、有交集还是完全不同的领域?
门外新人一枚,连入门都算不上。求问数据挖掘与文本挖掘的关系,两者哪个是主流大势呢?
查看全文如何自动分析一篇文档的主题以及进行情感分析?
本人的研究方向是自然语言处理,想通过输入一篇文章来判断该文章的主题类别,如何实现?想要用不同类别的文章构造一个语义空间,如何实现?又比如,对于一篇英语作文,能否判断其是否切题?没有思路,希望大神可以指点迷津,谢谢!
查看全文python中文预处理?
NLP刚入门,想利用一些文本文件和python工具做一些文本分类的问题。查资料查到利用中文和英文的预处理有很多不同:中文处理具体是怎样的呢?(1)分词:jieba分词 or nlpir?(2)停用词:去停用词使用正则表达式?网上的停用词表是包括标点的,标点符号是否就不用再处理了?(3)上两步的顺序,先分词再停用词,还是先去停词再分词(4)词性标注有什么用?用于后续处理吗?(5)还有什么其他处理操作? (6)后续分类使用gensim、scikit-learn、nltk?刚入门,问题比较小白。。
查看全文