帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

爬虫软件可以从上市公司年报中抓取数据和文本吗?

作为一名苦逼的会计学博士生,手工从报表中摘数据实在是一件让人心力交瘁的事情。可能有人会问:为什么不用CSMAR之类的数据库呢?因为那些数据太大路货了,我们需要一些非标准化的、比较冷门的的数据。还有一些文本,需要人工把它们转化成数字的形式,比如董事会的个人教育背景,本科以下为0,本科为1,硕士为2,博士为3(当然,这个数据库里有,只是举个例子)。那么问题就来了:爬虫软件能不能从年报里抓取这些数据呢?如果是从网站中保存的PDF格式的年报呢?作为一个编程零基础的小白,实现难度大吗?大致需要几个月时间?

查看全文

机器学习与搜索如何结合写一篇硕士学位论文?

是这样的,题主正在纠结硕士学位论文开题。因为实习的原因,手头上有一些 搜索的日志(数据量够大,特征够多)。 想利用这个资源,与机器学习相结合写一篇论文。(自学了一年机器学习。)目前本人找到了两个点,一个是排序学习(learning to rank)的研究, 但是这个算法方面不知道自己能不能提出什么创新点?第二个是一个相关query的推荐系统的应用实现。但是这个又 感觉不够新颖?这两个方面有比较符合要求(研究方面要有一定的创新点, 应用方面要有一定的技术含量。)的题目(方向)?除此之外,还有什么 比较好的方向和题目? 抛开搜索,有比较好的数据来源的应用点, 也可考虑。还有 不到一个月就要开题了。 由于某些原因,只能靠自己来想。 真心求 […]

查看全文

python(x,y)在linux系统怎么安装?

做词向量分析,在本地Windows系统已经实现了,但是本地内存4G,训练词向量时经常出现MemoryError。想在虚拟机上安装python(x,y),然后安装gensim,做词向量分析,但虚拟机是linux系统。所以想请教下,如何在linux系统上安装python(x,y),是不是有专门的linux版本,有的话,提供给我。谢谢啦。

查看全文

如何自动分析一篇文档的主题以及进行情感分析?

本人的研究方向是自然语言处理,想通过输入一篇文章来判断该文章的主题类别,如何实现?想要用不同类别的文章构造一个语义空间,如何实现?又比如,对于一篇英语作文,能否判断其是否切题?没有思路,希望大神可以指点迷津,谢谢!

查看全文

python中文预处理?

NLP刚入门,想利用一些文本文件和python工具做一些文本分类的问题。查资料查到利用中文和英文的预处理有很多不同:中文处理具体是怎样的呢?(1)分词:jieba分词 or nlpir?(2)停用词:去停用词使用正则表达式?网上的停用词表是包括标点的,标点符号是否就不用再处理了?(3)上两步的顺序,先分词再停用词,还是先去停词再分词(4)词性标注有什么用?用于后续处理吗?(5)还有什么其他处理操作? (6)后续分类使用gensim、scikit-learn、nltk?刚入门,问题比较小白。。

查看全文