做毕业论文,想要利用gooseeker等爬虫抓取新浪微博指定用户的相关信息,如何做到?

理由
举报 取消

从指定用户开始,抓取他所有(可以自己设置抓取页数)的微博信息,及每条微博下面评论、转发、点赞用户的相关属性信息(包括id、用户名、所在地、粉丝数、关注数、标签等等),然后进行迭代,抓取刚才抓到用户(即刚才评论、转发、点赞的所用用户)的所发布的所有(可以自己设置抓取页数)微博信息,在抓他每条微博下面评论、转发、点赞用户的相关属性信息,以此类推,不知是否可以实现?如何实现?真心求教各位大神!

2017年7月23日 2 条回复 1079 次浏览

发起人:大象 初入职场

回复 ( 2 )

  1. 华天清
    理由
    举报 取消

    谢邀!

    我所在的团队近几年一直使用微博数据做消费者行为研究,去年完成的比较大型的报告包括:

    1,多种品牌手机消费者群体差异研究:主要利用发微博终端、微博内容等信息,使用中文文本挖掘技术,从话题、生活方式、兴趣、爱好等方面进行研究。

    2,换机行为特征和人群特征研究:主要利用发微博终端类型,把博主发的微博消息都用爬虫抓下来进行研究

    3,品牌鸿沟研究

    4,消费者态度研究和产品期望分析

    你提到的需要抓取的内容都能用网络爬虫抓取下来。通常可以抓取这几方面内容,或者说从这些入口启动网络爬虫

    1,进入博主的主页,抓取足够量的博主所发的微博

    2,使用关键词搜索,抓取足够量的含有指定关键词的微博

    3,抓取某些微博的足够量的评论,或者转发

    4,抓取兴趣标签联系起来的博主和层次关系

    5,抓取粉丝和关注形成的层次关系

    6,抓取话题的参与消息和人

    前面提到好几次“足够量”,做数据研究的时候,并不是数据越多越好,原因有:

    1,微博网站对网络爬虫有很严的限制,对现有的技术能力来说,虽然不能阻断网络爬虫,但是提高了获取成本,比如,对点击量有限制,每天单账号和单IP获得的数据量有限,必须切换账号和IP,造成管理成本,或者直接增加网络爬虫的数量

    2,对于数据研究来说,数据量适度就好,虽然大数据这个词被热炒,如果盲目追求量,会落入很多陷阱。我个人的经验是要选取合适的样本,要用合适的数据清洗算法,要做合适的数据转换运算。

    所以,我建议楼主制定一个合适的抓取工作目标,数量和范围方面适当就好。另外,我统计了几年来使用网络爬虫的科研机构和市场研究公司的需求,近期陆续发布多个微博数据获取工具,是在网络爬虫之上开发的软件系统,可以省掉学习网络爬虫的时间。已经上线了博主抓取工具,敬请关注。

  2. 张哲宁
    理由
    举报 取消

    可以,我这么做了,但是有一点,微博的粉丝啊,评论什么的分页数量特别多的话有的会请求不到,哪怕是网页正常浏览也会请求不到。

    你的需求里大多数都可以做到的。

    话题我做过分析。

    正常来说,你有一批微博账号,有一个专门的服务去负责微博登录,然后取出Cookie保存,然后用这个Cookie去请求话题列表,逐一分析。

    话题的粉丝,回复,转发列表的用户可以取出id,用id去请求名片。这些都好做。

    其实微博抓取麻烦就在账号管理上,抓取数据这块难度不大。楼主如果有什么疑问可以回复我

我来回答

Captcha 点击图片更换验证码