如何用爬虫下载武汉市环保局空气污染数据? 举报 理由 举报 取消 毕业季,需要用到这方面的数据,单独一页一页的复制了一段时间的数据,发现很是耗时,想从武汉市环保局下载这将近三年的历史数据。选择日期后,页面出现一个相应的数据表格,需要将这个表格全部保存。页面如下:跪谢各位! 2018年2月12日 2 条回复 1131 次浏览 分析,数据,爬虫,研究,空气污染,行业,计算机网络
回复 ( 2 )
这个问题不算麻烦,中午休息的时间简单调试了一下。我把步骤、代码和一个月的数据 demo 贴上,希望题主有一定的基础,然后能自己把需要的所有数据跑出来。
最后给出的完整代码修改起止日期以后应该是能直接使用的。我中间有短暂地无法访问这个网站,所以在运行的时候最好不要一次跑太长的日期跨度,最好是 3~6 个月的数据这样跑吧。
我们由内向外地来看待这个问题,想要获取三年的历史数据,自然要从获取某一天入手,然后再批量化地获取很多天的数据。获取到数据以后为了方便后续处理,我们可以将其保存到一个 excel 的表格里面。
所以我们要做的就是请求页面-解析页面-保存数据,相应用到的库分别是:
Python3
requests
beautifulsoup
xlwt
(上面三个库在装完 Python3 后都可以直接用 pip install 命令安装)
网页不复杂,也不需要模拟登陆,下面简单分析一下。
这个页面里没有找到我们需要的数据,观察以后发现中间的表格部分写在一个<iframe>标签里,打开这个链接,跳转到表格页面。
随便修改一个日期,观察浏览器的请求情况。如图。
可以看到,浏览器用一个 post 方法,提交的数据是日期和页数。这个过程就很简单了。
对于这种简单的数据抓取需求,有很多可视化的数据抓取工具,动动鼠标就行,入门几分钟。自行搜索八爪鱼、火车头采集等。