如果我要统计一个贴吧的各类数据,应该学习些什么? 举报 理由 举报 取消 比如我想知道这个贴吧每天的关注数发帖数的变化,以及发帖高低峰是什么时间段?每天的访客数和点击数以及高低峰时间段?访问页面平均时长?当天什么话题内容提及最多讨论最多?我的目的是想做一个学校贴吧的数据分析报告,要用的就是上述数据,那么我应该使用什么工具呢?如果要学习的话我该从哪方面下手?请多指教,谢谢! 2017年10月14日 5 条回复 1226 次浏览 Python,互联网,分析,大数,据分析,数据,编程语言
回复 ( 5 )
感觉实现起来并不容易。可能需要掌握比较复杂的爬虫技巧。
用R的话,推荐两本书:
如果实现了可以到这个问题下怒装一逼,让我们学习学习:)
1:每天的关注数发帖数的变化,以及发帖高低峰是什么时间段.
可以定时爬取相关数据,分析数据的变化很容易得出应该。
2:每天的访客数和点击数以及高低峰时间段?访问页面平均时长?
这个数据不知道如何得到,貌似百度没提供吧?
3:当天什么话题内容提及最多讨论最多。
可以爬取贴吧的帖子,然后对回复数多的帖子的标题内容进行分词然后统计什么的。
1和3的数据收集我写的贴吧的爬虫可以得到,Python写的:
1、贴吧每天的关注数、发帖数的变化,以及发帖高低峰是什么时间段?
关注数:每天定时到贴吧页面采集,通过计算每天的差值就可以发现其规律。
发帖数和高峰期:贴吧帖子较多的情况下,使用爬虫爬取【帖子标题-发帖ID-发帖时间】等信息,通过数据预处理,可以进行分日、分时段发帖数量等分析。做成如下的图表。
发现了发帖的高峰期和低谷,只是数据分析的第一步。根据发帖时间的分布发现其背后的驱动因素,并根据其特征制定有效的、有目的的方案。
2、每天的访客数、点击数、访问页面平均时长、以及高低峰时间段?
一般网站的访客数(UV)、浏览量(PV)等可以通过百度统计进行分析。然而百度贴吧的浏览数据,不知道…..
但是,可以通过其他方法折中获得。
比如根据回帖时间的分布,即可大体得到访问的高低峰时间段(这里会有误差,因为部分用户只是浏览而不回帖)。
(百度统计页面)
3、当天什么话题内容提及最多讨论最多?
a、贴吧的默认排序是按照最晚回复时间排序。最近被回复过的帖子会被顶到最上面。因此采集最晚回复时间在当天以内的帖子【帖子标题-发帖ID-最后回复时间】。
再根据帖子标题采集 当日回帖数量【帖子标题-日期-当天回帖数量】,一般情况下,学校贴吧的数据量非常小,数据采集也比较简单。
现在得到的数据就是:当天有回复的帖子信息【帖子标题-最后回复时间-当天回帖数量】。
b、接下来根据帖子标题进行归类,对讨论的主题进行合并,即可知道哪些话题被提及最多。
c、根据采集到的数据,可使用R语言做如下效果。
4、其实贴吧数据分析可以有很多的切入点,比如用户的活跃度分布、是否存在意见领袖、贴吧回复数量的长尾特性等等。不同的分析目的会导致不同的分析内容。
从题主自己的回答可以看出来,他把知乎也当成贴吧了(╯3╰)
为什么没人回答????这是一个做不到的事吗。。