爬到社交网络文字数据有什么用?

理由
举报 取消

写了个小爬虫,爬了某社交网络数据,一晚上拿到大概500万纪录,还在爬。。。不知道这些数据有什么用。为了方便没有存关系数据,有没有必要完善一下然后把关系数据存下来(评论和评论人,点赞什么的)?谢——-来补充下,我爬的是qq空间,特别是说说的数据。这货没有速率限制,直接开80个线程放digital ocean, 单机就这速度。如果用上redis做分布式估计可以把腾讯服务器搞垮(听说是node JS的后端)最近没有看爬虫,GitHub上有人给我说好像被查了,等我申请季完了去看看。爬虫是我学C++的时候写的,所以略暴力,爬虫逻辑也挺简单的。有段时间还用Scala重构了下,写了点前端API,也不知道现在怎么样了。

2017年10月22日 10 条回复 1200 次浏览

发起人:邓一平 初入职场

雅礼2017er,美本2021er,计算机科学,大数据方向,C++, Scala, Python, Java

回复 ( 10 )

  1. 何明科
    理由
    举报 取消

    (用上海话说)能做的事情不要太多喏。

    核心的一些知识点:数据抓取(ETL),NLP(分词、情感分析、语义分析等等)以及SNA(Social Network Analysis,网络理论中的各种指标)。

    1、关键词统计及分词

    利用知乎的热门回答(沧海横流,看行业起伏(2015年) – 数据冰山 – 知乎专栏),把所有回答抓取下来,并利用NLP分词以及建立行业关键词典对热门行业进行统计,2015年最热门最衰落的行业。给大家择业提供方便的信息。

    2、用户画像

    利用汽车之家等论坛发言的抓取以及NLP,对各种车型的车主做画像(大数据画像:宝马车主究竟有多任性? – 数据冰山 – 知乎专栏)。

    抓取大众点评的数据,在文章(小龙虾是怎么火遍全国的? – 数据冰山 – 知乎专栏)中,对小龙虾的用户进行画像,并与其它夜宵食品的用户进行比较。

    3、情感分析

    抓取各大电商的评论及销量数据,对各种商品(颗粒度可到款式)沿时间序列的销量以及用户的消费场景进行分析(超越咨询顾问的算力,在用户理解和维护:大数据改变管理咨询(三) – 数据冰山 – 知乎专栏)。

    然后根据用户评价做情感分析,实时监控产品在消费者心目中的形象,对新发布的产品及时监控,以便调整策略。

    4、傅里叶分析

    抓取B站上面关于《感觉身体被掏空》中所有的弹幕,并对弹幕的数量以及情绪进行时域和频域的分析(你是怎么被他掏空的? – 数据冰山 – 知乎专栏)。说不定对作词作曲者( @金承志 )后续的创作工作有价值。

    数量的时域分析。

    情绪的时域分析。

    数量及情绪的频域分析。

    5、社交网络分析

    在专栏文章中(基金恩怨情仇考(I) – 数据冰山 – 知乎专栏),抓取IT橘子和36Kr的各公司的投融资数据,利用SNA分析中国各家基金之间的互动关系。当然有不少优秀文章是基于知乎的Social Network来做分析,非常具有参考价值。

    …更多文章请到数据冰山 – 知乎专栏

    …更多回答请看何明科的主页

  2. 数据哥
    理由
    举报 取消

    谢邀!

    你可以把你爬取的这个过程或者一些想法写出来,给我投一篇稿件么?

    下面这篇文章的作者也是无意间在1024爬了一些数据,不知道该怎么使用,然后我给了他一点点小建议,结果完成了这篇文章,发出的时候火爆了一段时间,百度、网易等平台当时都有部分转载。文章如下:

    大数据爱好者:草榴在我眼里其实是这样的!

    我们的微信号:数据客 idacker 我个人的号 guziaiqiutian 期待你给我们投稿。

  3. rainj2013
    理由
    举报 取消

    一晚上500w挺厉害的

  4. 江踏歌
    理由
    举报 取消

    你大概爬了知乎吧,我也在爬知乎,但是速度没你那么快,可能是我不会用并行爬虫吧。

    贴一个我用quora数据做的研究,有兴趣我们可以一起合作。

    作者:江汉臣

    链接:如何在Quora上获得更多的赞——来自10393个回答的实证 – 防川 – 知乎专栏

    来源:知乎

    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

    结论:在气候变化的讨论中,人们更愿意为那些提供了专业性知识,而又不是科普知识的答案点赞。特别是打脸气候变化否认者和怀疑者,以及打脸共和党政策的那些答案,会得到更多的赞。如果答案中出现太多日常用语,就会失去更多的赞。这些都是common sense,但是可以通过定量方法进行细致的研究。

    如何在一个社交问答社区(online social Q&A community)中获得更多的赞,是我一个希望研究的一个问题。

    在今年4月份左右,我通过python的爬虫爬取了Quora上面Climate Change这个Topic下面的问题、回答以及回答作者的信息。为什么爬取这个话题,是因为Climate Change的Public Opinion或者Science Communication研究可以发文章,同时也是我很感兴趣的领域。

    Quora在2016年3月宣布自己的网站每个月有超过1亿的独立ip访问,比2016年1月增长了22%。根据第三方流量统计平台Alexa的数据,2016年4月,Quora排名全球站点的128位,主要访问者来自印度(39.9%),美国(23.1%),英国(2.9%),加拿大(1.8%)以及中国(1.8%)。Alexa同时指出,和互联网平均水平相比,Quora用户中有更多的男性,更多的高学历用户以及更多的年轻用户。

    我在2016年3月28日开始爬取数据,当时Climate Change这个话题下面有6.8K个问题(很不开心的是当时没去截图),现在已经是8.4K了,如图1所示。遗憾的是,Quora没有像知乎这样提供完整的话题—问题数据,可得到的数据是显示所有问题的一半(通过不停加载动态页面,反复试验得到),于是我们只爬取了最新的3400个问题。

    图1 Quora的Climate Change Topic主页

    爬取的信息主要如图2(问题和答案信息)、图3(作者信息)所示,包括这个问题有多少跟随者,问题的文本,问题属于哪个话题,问题有多少回答,问题有多少浏览量,问题创建时间,答案的作者,答案的浏览量,答案的点赞数(研究对象,因变量),答案创建时间,答案的文本,作者粉丝数、提问数、回答数、跟随数、公共编辑数、文章数。当然这些数据并不会全部用在研究中。

    图2 Quora中某个问题的页面

    图3 Quora中某个用户的主页

    我希望通过回归模型来解释什么因素会影响一个答案获得的点赞数。首先答案获得的点赞数是一个计数数据(count data),需要用计数回归的方法,比如泊松回归(Poisson regression)、负二项回归(Negative binomial regression),在本文中,我们同时采用了这两种方法。点赞数的分布如图4所示,可以看出超过2500的答案没有得到点赞,超过2000的答案只有1个点赞,大约1500个答案有2个点赞。获得最多点赞数的答案得到了2727个赞。

    图4 Quora回答得到的点赞数的分布

    我们希望研究的特征包括答案本身的性质,包括答案的长度、答案有多少图片以及最重要的,答案讨论了些什么。前两个特征是很容易计算的,但是答案讨论了什么,这个特征比较难以量化,毕竟如果靠人力阅读,我们需要阅读10393篇答案。于是我采用了主题模型的方法对这10393个答案进行建模。

    我建立了4个主题模型,分别包括4个主题,8个主题,10个主题和12个主题,最后我发现10个主题的那个模型比较好。当然,这里的主观性很强,不过目前很难有一个量化的指标去帮助研究者选择主题数,量化的指标和语义也不是等价的,因此通常这类研究都采用主观判断的方法。构建的10个主题,每个主题对应的关键词,以及主题占整个数据集的比例如图5

    图5 Quora回答主题建模结果-10主题数的模型

    大多数主题都是针对气候变化相关的特定领域的,比如能源、燃料和碳排放、科学传播甚至政治学。但是我们也注意到主题2和主题8,其实更多的是一些日常用词,这在主题建模过程中是不可避免的,因此我们也强行给它们进行标签化。

    在2006年,Lorenzoni等人[1]进行了一个针对美国和英国人民关于气候变化的印象的研究,基于的方法是开放式访谈(open-ended survey)。因为Quora也是一个英文社区,虽然有很多印度人,但是还是可以进行粗略的对比。比如在Lorenzoni等人的研究中,气候变化所导致的极端自然现象,比如冰川融化,洪水以及天气异常,在美国和英国人民印象中占比例非常大,而在Quora的回答中,相关的主题,包括主题5(大气和天气)以及主题7(水圈),总共占比为20.9%。关于能源和碳排放的主题,包括主题1(燃料和碳)以及主题4(能源),在Quora的回答中共占18.8%,而相关的主题,如温室气体,在Lorenzoni等人的调查中占比少于5%。与人类和社会相关的主题,包括主题2(生活)、主题3(人类和生态多样性)、主题8(未来)和主题9(政治),在Quora的回答中共占比超过40%,远超过,Lorenzoni等人的调查结果。主题6(科学传播)在Quora的回答中占比为11.4%,相似的主题,如气候变化否定者(这个不好翻译,原文是naysayer)在另一份2010年针对美国人的调查中[2],占比为23%。最后,主题10是一个非常专业性的主题,讲的是气候模型的问题,带有很强的科学性,这个主题在Quora中出现是意料之中的,但很少会有相关的主题在针对普通民众的调研中出现。

    这10个主题同时也是分配个数据集中每一个答案的,也就是说,每个答案都有一个10维向量代表这10个主题在该答案中的比例,向量的和为1。比如,某个答案重点谈的是能源问题,那么主题4在这个答案中的比例就会非常高。遗憾的是,我们不能直接用这个10维向量进行回归,因为存在多重共线性的问题,因此我们将这些代表主题的特征转化为哑变量,具体的规则就是,如果一个主题的比例超过0.2,我们就将对应的哑变量标记为1。选择0.2作为阈值的原因是,它是平均主题数的2倍,并且能够保证超过99%的回答至少有一个突出的主题。

    我们的回归模型总共包括14个变量,分别代表10个主题,以及答案所属问题的关注人数、答案文本长度、答案包含的图片数、以及答案作者的粉丝数(后4个特征在建模前都经过归一化)。同时我们用答案存在的天数(从答案创建到数据采集的天数+1)作为offset来抵消时间效应。最终得到的结果如图6所示。

    *p<0.05. **p<0.01. ***p<0.001

    图6 Quora回答点赞数的回归结果

    从图6最后3行可以看出负二项模型是远远优于泊松模型的,因此我们的分析将基于负二项模型的结果。首先关注非文本特征,作者粉丝数、回答文本长度、回答图片数和所属问题关注数这4个特征。首先这4个特征都是高度显著的,***代表在p<0.001水平上显著。作者粉丝数对于一个答案获得的点赞数影响最大,文本长度的影响第二,图片数量和问题关注人数的影响差不多一样。

    再看文本特征,β系数为负值的有4个主题,分别是主题2(生活),主题5(大气和天气),主题7(水圈)和主题8(未来)。其中显著负面影响的主题2(生活)和主题8(未来)。一个可能的解释是,主题2和主题8,包含很多日常生活中,以及在Quora的回答中常见的词语,例如thing, problem, good, bad, question, answer等等,一个答案越多的包含这些词语,说明这个答案越没有信息量,因此主题2和主题8对于点赞的贡献是负面的,并且是显著地。主题5(大气和天气)以及主题7(水圈),虽然是气候变化相关的特定主题,然而,正如上述分析的,这两个主题是和气候变化相关的自然现象,人们已经了解很多,属于气候变化的科普性知识,因此在Quora这样一个高学历用户社区,主题5和主题7,也很难得到更多的关注和喜欢,它们对于点赞的影响是负面的,但是绝对值很小,并不显著。

    剩下的6个主题对点赞的影响是显著正面的。影响最大的是主题6(科学传播),一个可能的原因是,和知乎类似,Quora的主要用户也是崇尚科学和理性的,他们普遍对气候变化是否发生,人类是否是气候变化的主要原因有着和科学共同体一样的共识,而Quora当中讨论科学传播,主要是打脸那些否认者或者怀疑论者,因此能够得到Quora用户的支持。

    影响第二大的主题是主题9(政治),准确的说是美国政治,可以看到很多相关词语(共和、美国、保守等)。美国民主党和共和党在气候变化问题上存在很大的分歧。由于共和党是倾向于否认以及怀疑气候变化的,因此对于共和党的打脸,也能得到更多的点赞。

    结论:在气候变化的讨论中,人们更愿意为那些提供了专业性知识,而又不是科普知识的答案点赞,如果答案中出现太多日常用语,就会失去更多的赞。这些都是common sense,但是可以通过定量方法进行细致的研究。

    英文原文请到我的researchgate主页看,正在投稿:

    参考文献:

    1. Lorenzoni, I., Leiserowitz,
    A., de Franca Doria, M., Poortinga, W. & Pidgeon, N. F. (2006). Cross-national comparisons of image associations with
    ‘‘global warming’’ and ‘‘climate change’’ among laypeople in the United States
    of America and Great Britain. Journal of Risk Research. 9, 265–281.

    2. Smith, N., & Leiserowitz, A. (2012). The rise of global
    warming skepticism: Exploring affective image associations in the United States
    over time. Risk Analysis, 32(6), 1021-1032.

  5. 浪潮
    理由
    举报 取消

    我想说的是没有一点用,大部分是垃圾数据,要降噪,提取关键词,分析语义再算相互关联性,才能作为大数据分析使用。这些环节里面目前的算法误差都非常的大,一层层的误差下来,分析的结果惨不忍睹。

  6. 阿阿聪
    理由
    举报 取消

    爬挂腾讯服务器….还是先别想那么多了…

    爬虫门槛不高,很多人都在做,但大多爬过来就完了,好点的分析下一些有用没用的指标,然而并没有什么卵用。(好像特别多的人都喜欢爬知乎啊 各种租房价格啦 电影什么的,然后统计一下趋势啦什么的…说真,这种数据百度谷歌一下还少么…)

    我觉得这些数据用处有那么几个

    一是工作中用的,这个肯定要爬,爬来数据只是个开始,后续就有其他分析

    二是爬来自己玩,学习学习数据分析

    三是卖钱。这些数据对你而言没什么用,但有人是需要的。

    不管怎样,都是先有需求,再去爬的,而不是爬到了之后才考虑有什么用。

    数据本身没什么用,有用的是由数据衍生出来的价值。

  7. 徐凯
    理由
    举报 取消

    前段时间刚爬完豆瓣所有的电影,把评分,类型,评论,时长,国家等等参数做了些分析,还比较了下中国大陆和港台电影差别及和世界之间的水平,这里抛上几张图,有兴趣的可以向我拿数据集,想看怎么实现具体看(大)数据分析:豆瓣电影分析报告【1】

    图片太多了就不一一上传了,以我的水平都可以分析出很多东西,我想要是有更专业点的分析师,我想豆瓣所有电影的数据给他的价值比给我的要大得多。就酱紫

  8. 张知
    理由
    举报 取消

    一晚上500万,很厉害了

    我自己爬过一些数据,不过是一些非主流的互联网金融网站,因为我自己做FinTech和社会网络分析相关研究的。

    有机会可以合作合作,加一些网络分析和文本分析,这个数据可以做很多东西

  9. 毕勤
    理由
    举报 取消

    一晚上500万条记录,速度真可以,我能不能先问问用的什么框架和服务器。。。

我来回答

Captcha 点击图片更换验证码