想要做一个机票预测系统,在数据爬取模块想要使用一些开源的爬虫,不知道该选哪种比较方便快捷地爬取到这种深度网络的数据。
查看全文如何用爬虫下载武汉市环保局空气污染数据?
2018-02-12
1088 次浏览
毕业季,需要用到这方面的数据,单独一页一页的复制了一段时间的数据,发现很是耗时,想从武汉市环保局下载这将近三年的历史数据。选择日期后,页面出现一个相应的数据表格,需要将这个表格全部保存。页面如下:跪谢各位!
查看全文如果我需要知道某区域某app用户多少,用什么方法可以知道?
我想知道在某学校的学生中外卖APP的使用情况,比如美团,百度,饿了么,哪个使用用户多,甚至数据的更深入挖掘,比如消费能力,使用时间段,对于一个不懂数据挖掘的小白来说该如何做,求知乎大神们指导。
查看全文如何用爬虫程序 爬取文本做语料库?
编程小白,只会用Matlab。要写一个基于语料库的毕业论文,我想把这样的网页里的新闻文本都爬取下来,做成语料库,应该要怎么做啊换一个网页,之前是资料库里的。要用学校的账号登陆..担心会出问题http://www.abc.net.au/news/archive/这个是ABC News的新闻档案
查看全文爬虫软件可以从上市公司年报中抓取数据和文本吗?
作为一名苦逼的会计学博士生,手工从报表中摘数据实在是一件让人心力交瘁的事情。可能有人会问:为什么不用CSMAR之类的数据库呢?因为那些数据太大路货了,我们需要一些非标准化的、比较冷门的的数据。还有一些文本,需要人工把它们转化成数字的形式,比如董事会的个人教育背景,本科以下为0,本科为1,硕士为2,博士为3(当然,这个数据库里有,只是举个例子)。那么问题就来了:爬虫软件能不能从年报里抓取这些数据呢?如果是从网站中保存的PDF格式的年报呢?作为一个编程零基础的小白,实现难度大吗?大致需要几个月时间?
查看全文一个爬联系方式的爬虫该如何选择数据库?
写了一个爬联系方式的爬虫,email,电话,地址等有八九个键值,每个人大概有不同的三四样信息,大概20万条数据。是该用mySQL类的数据库还是noSQL?希望可以根据类目,比如电话,快速获得含有这个类目的entry,并且以后可以做一些简单的趋势分析。
查看全文