如何用爬虫下载武汉市环保局空气污染数据？

理由

举报取消

毕业季，需要用到这方面的数据，单独一页一页的复制了一段时间的数据，发现很是耗时，想从武汉市环保局下载这将近三年的历史数据。选择日期后，页面出现一个相应的数据表格，需要将这个表格全部保存。页面如下：跪谢各位！

2018年2月12日 2 条回复 1241 次浏览

分析,数据,爬虫,研究,空气污染,行业,计算机网络

回复 ( 2 )

段小草初入职场
0
举报回复
理由

举报取消

这个问题不算麻烦，中午休息的时间简单调试了一下。我把步骤、代码和一个月的数据 demo 贴上，希望题主有一定的基础，然后能自己把需要的所有数据跑出来。

最后给出的完整代码修改起止日期以后应该是能直接使用的。我中间有短暂地无法访问这个网站，所以在运行的时候最好不要一次跑太长的日期跨度，最好是 3~6 个月的数据这样跑吧。

我们由内向外地来看待这个问题，想要获取三年的历史数据，自然要从获取某一天入手，然后再批量化地获取很多天的数据。获取到数据以后为了方便后续处理，我们可以将其保存到一个 excel 的表格里面。

所以我们要做的就是请求页面-解析页面-保存数据，相应用到的库分别是：

Python3

requests

beautifulsoup

xlwt

（上面三个库在装完 Python3 后都可以直接用 pip install 命令安装）

网页不复杂，也不需要模拟登陆，下面简单分析一下。

这个页面里没有找到我们需要的数据，观察以后发现中间的表格部分写在一个<iframe>标签里，打开这个链接，跳转到表格页面。

随便修改一个日期，观察浏览器的请求情况。如图。

可以看到，浏览器用一个 post 方法，提交的数据是日期和页数。这个过程就很简单了。
import requests def get_html(): global h s = requests.session() url = 'http://www.whepb.gov.cn/airSubair_water_lake_infoView/v_listhistroy.jspx?type=0' headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:44.0) Gecko/20100101 Firefox/44.0', 'Referer':'http://www.whepb.gov.cn/airSubair_water_lake_infoView/v_listhistroy.jspx?type=0', 'Host':'www.whepb.gov.cn', 'Cookie':' JSESSIONID=C7DC84CE4FF191ADB582B6C8D39F0749.tomcat; JSESSIONID=C7DC84CE4FF191ADB582B6C8D39F0749.tomcat; clientlanguage=zh_CN', 'Connection':'keep-alive', 'Accept-Language':'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3', 'DontTrackMeHere':'gzip, deflate', 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8' } dt = {'cdateEnd':'2014-07-03','pageNo1':'1','pageNo2':''} r = s.post(url, data=dt, headers=headers) h = r.content.decode('utf-8')
sumBug 初入职场
0
举报回复
理由

举报取消

对于这种简单的数据抓取需求，有很多可视化的数据抓取工具，动动鼠标就行，入门几分钟。自行搜索八爪鱼、火车头采集等。

找回密码

如何用爬虫下载武汉市环保局空气污染数据？

发起人：

回复 ( 2 )

我来回答

帐户注册

登录

找回密码

如何用爬虫下载武汉市环保局空气污染数据？

发起人：

回复 ( 2 )

我来回答