帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

如何用爬虫下载武汉市环保局空气污染数据?

毕业季,需要用到这方面的数据,单独一页一页的复制了一段时间的数据,发现很是耗时,想从武汉市环保局下载这将近三年的历史数据。选择日期后,页面出现一个相应的数据表格,需要将这个表格全部保存。页面如下:跪谢各位!

查看全文

如何用爬虫程序 爬取文本做语料库?

编程小白,只会用Matlab。要写一个基于语料库的毕业论文,我想把这样的网页里的新闻文本都爬取下来,做成语料库,应该要怎么做啊换一个网页,之前是资料库里的。要用学校的账号登陆..担心会出问题http://www.abc.net.au/news/archive/这个是ABC News的新闻档案

查看全文

爬虫软件可以从上市公司年报中抓取数据和文本吗?

作为一名苦逼的会计学博士生,手工从报表中摘数据实在是一件让人心力交瘁的事情。可能有人会问:为什么不用CSMAR之类的数据库呢?因为那些数据太大路货了,我们需要一些非标准化的、比较冷门的的数据。还有一些文本,需要人工把它们转化成数字的形式,比如董事会的个人教育背景,本科以下为0,本科为1,硕士为2,博士为3(当然,这个数据库里有,只是举个例子)。那么问题就来了:爬虫软件能不能从年报里抓取这些数据呢?如果是从网站中保存的PDF格式的年报呢?作为一个编程零基础的小白,实现难度大吗?大致需要几个月时间?

查看全文

一个爬联系方式的爬虫该如何选择数据库?

写了一个爬联系方式的爬虫,email,电话,地址等有八九个键值,每个人大概有不同的三四样信息,大概20万条数据。是该用mySQL类的数据库还是noSQL?希望可以根据类目,比如电话,快速获得含有这个类目的entry,并且以后可以做一些简单的趋势分析。

查看全文