做毕业论文，想要利用gooseeker等爬虫抓取新浪微博指定用户的相关信息，如何做到？

理由

举报取消

从指定用户开始，抓取他所有（可以自己设置抓取页数）的微博信息，及每条微博下面评论、转发、点赞用户的相关属性信息（包括id、用户名、所在地、粉丝数、关注数、标签等等），然后进行迭代，抓取刚才抓到用户（即刚才评论、转发、点赞的所用用户）的所发布的所有（可以自己设置抓取页数）微博信息，在抓他每条微博下面评论、转发、点赞用户的相关属性信息，以此类推，不知是否可以实现？如何实现？真心求教各位大神！

2017年7月23日 2 条回复 1221 次浏览

内容,抓取,数据挖掘,爬虫,网页,计算机网络

回复 ( 2 )

华天清初入职场
0
举报回复
理由

举报取消

谢邀！

我所在的团队近几年一直使用微博数据做消费者行为研究，去年完成的比较大型的报告包括：

1，多种品牌手机消费者群体差异研究：主要利用发微博终端、微博内容等信息，使用中文文本挖掘技术，从话题、生活方式、兴趣、爱好等方面进行研究。

2，换机行为特征和人群特征研究：主要利用发微博终端类型，把博主发的微博消息都用爬虫抓下来进行研究

3，品牌鸿沟研究

4，消费者态度研究和产品期望分析

你提到的需要抓取的内容都能用网络爬虫抓取下来。通常可以抓取这几方面内容，或者说从这些入口启动网络爬虫

1，进入博主的主页，抓取足够量的博主所发的微博

2，使用关键词搜索，抓取足够量的含有指定关键词的微博

3，抓取某些微博的足够量的评论，或者转发

4，抓取兴趣标签联系起来的博主和层次关系

5，抓取粉丝和关注形成的层次关系

6，抓取话题的参与消息和人

前面提到好几次“足够量”，做数据研究的时候，并不是数据越多越好，原因有：

1，微博网站对网络爬虫有很严的限制，对现有的技术能力来说，虽然不能阻断网络爬虫，但是提高了获取成本，比如，对点击量有限制，每天单账号和单IP获得的数据量有限，必须切换账号和IP，造成管理成本，或者直接增加网络爬虫的数量

2，对于数据研究来说，数据量适度就好，虽然大数据这个词被热炒，如果盲目追求量，会落入很多陷阱。我个人的经验是要选取合适的样本，要用合适的数据清洗算法，要做合适的数据转换运算。

所以，我建议楼主制定一个合适的抓取工作目标，数量和范围方面适当就好。另外，我统计了几年来使用网络爬虫的科研机构和市场研究公司的需求，近期陆续发布多个微博数据获取工具，是在网络爬虫之上开发的软件系统，可以省掉学习网络爬虫的时间。已经上线了博主抓取工具，敬请关注。
张哲宁初入职场
0
举报回复
理由

举报取消

可以，我这么做了，但是有一点，微博的粉丝啊，评论什么的分页数量特别多的话有的会请求不到，哪怕是网页正常浏览也会请求不到。

你的需求里大多数都可以做到的。

话题我做过分析。

正常来说，你有一批微博账号，有一个专门的服务去负责微博登录，然后取出Cookie保存，然后用这个Cookie去请求话题列表，逐一分析。

话题的粉丝，回复，转发列表的用户可以取出id，用id去请求名片。这些都好做。

其实微博抓取麻烦就在账号管理上，抓取数据这块难度不大。楼主如果有什么疑问可以回复我

找回密码

做毕业论文，想要利用gooseeker等爬虫抓取新浪微博指定用户的相关信息，如何做到？

发起人：大象 初入职场

回复 ( 2 )

我来回答

帐户注册

登录

找回密码

做毕业论文，想要利用gooseeker等爬虫抓取新浪微博指定用户的相关信息，如何做到？

发起人：大象 初入职场

回复 ( 2 )

我来回答

发起人：大象初入职场