如果我要统计一个贴吧的各类数据,应该学习些什么?

理由
举报 取消

比如我想知道这个贴吧每天的关注数发帖数的变化,以及发帖高低峰是什么时间段?每天的访客数和点击数以及高低峰时间段?访问页面平均时长?当天什么话题内容提及最多讨论最多?我的目的是想做一个学校贴吧的数据分析报告,要用的就是上述数据,那么我应该使用什么工具呢?如果要学习的话我该从哪方面下手?请多指教,谢谢!

2017年10月14日 5 条回复 1226 次浏览

发起人:leemoo 初入职场

要心平气和、不要争执

回复 ( 5 )

  1. 黄耀鹏
    理由
    举报 取消

    感觉实现起来并不容易。可能需要掌握比较复杂的爬虫技巧。

    用R的话,推荐两本书:

    • Automated_Data_Collection_with_R
    • XML and Web Technologies for Data Sciences with R

    如果实现了可以到这个问题下怒装一逼,让我们学习学习:)

  2. 啊超
    理由
    举报 取消

    1:每天的关注数发帖数的变化,以及发帖高低峰是什么时间段.

    可以定时爬取相关数据,分析数据的变化很容易得出应该。

    2:每天的访客数和点击数以及高低峰时间段?访问页面平均时长?

    这个数据不知道如何得到,貌似百度没提供吧?

    3:当天什么话题内容提及最多讨论最多。

    可以爬取贴吧的帖子,然后对回复数多的帖子的标题内容进行分词然后统计什么的。

    1和3的数据收集我写的贴吧的爬虫可以得到,Python写的:

    Crawler/tieba at master · fcfangcc/Crawler · GitHub

  3. 小五画沙
    理由
    举报 取消

    1、贴吧每天的关注数、发帖数的变化,以及发帖高低峰是什么时间段?

    关注数:每天定时到贴吧页面采集,通过计算每天的差值就可以发现其规律。

    发帖数和高峰期:贴吧帖子较多的情况下,使用爬虫爬取【帖子标题-发帖ID-发帖时间】等信息,通过数据预处理,可以进行分日、分时段发帖数量等分析。做成如下的图表。

    发现了发帖的高峰期和低谷,只是数据分析的第一步。根据发帖时间的分布发现其背后的驱动因素,并根据其特征制定有效的、有目的的方案。

    2、每天的访客数、点击数、访问页面平均时长、以及高低峰时间段?

    一般网站的访客数(UV)、浏览量(PV)等可以通过百度统计进行分析。然而百度贴吧的浏览数据,不知道…..

    但是,可以通过其他方法折中获得。

    比如根据回帖时间的分布,即可大体得到访问的高低峰时间段(这里会有误差,因为部分用户只是浏览而不回帖)。

    (百度统计页面)

    3、当天什么话题内容提及最多讨论最多?

    a、贴吧的默认排序是按照最晚回复时间排序。最近被回复过的帖子会被顶到最上面。因此采集最晚回复时间在当天以内的帖子【帖子标题-发帖ID-最后回复时间】。

    再根据帖子标题采集 当日回帖数量【帖子标题-日期-当天回帖数量】,一般情况下,学校贴吧的数据量非常小,数据采集也比较简单。

    现在得到的数据就是:当天有回复的帖子信息【帖子标题-最后回复时间-当天回帖数量】。

    b、接下来根据帖子标题进行归类,对讨论的主题进行合并,即可知道哪些话题被提及最多。

    c、根据采集到的数据,可使用R语言做如下效果。

    4、其实贴吧数据分析可以有很多的切入点,比如用户的活跃度分布、是否存在意见领袖、贴吧回复数量的长尾特性等等。不同的分析目的会导致不同的分析内容。

  4. 匿名用户
    理由
    举报 取消

    从题主自己的回答可以看出来,他把知乎也当成贴吧了(╯3╰)

  5. leemoo
    理由
    举报 取消

    为什么没人回答????这是一个做不到的事吗。。

我来回答

Captcha 点击图片更换验证码