用户名*
邮箱*
密码*
确认密码*
验证码* 点击图片更换验证码
找回密码
忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。
前伪理工男,后伪文科男
同意 土豆泥 的回答!题主贴图出来的,并不是数据挖掘,只是一个爬虫程序在网页上爬了数据,做了一个简单的统计分析。
爬虫,可以用Python实现。
统计分析,好的书籍太多。
看到这个问题,我就猜到了回事这样的内容。。。
这个不是数据挖掘!
重要的话说三遍!
我也不是一个数据统计学专业的,我也不太会编程,然后我帮题主邀请了一些大V,但愿他们会来。
我个人纯属喜欢数据统计,也很喜欢Excel,因为之前看到 @杭河苇 的答案,就找了题目做点东西玩玩。题主说到的这个如何统计超过50赞的其实很容易,我选一个之前答过的的“各个城市都有哪些千万不要去的地方?有什么特别需要注意的?”这个问题下的答案统计为例:
一共334个答案,接下来Ctrl+A全选,然后copy到txt文档中:
然后打开Excel,我这里是07版的,选“数据”中从“自文本”导入,记得要把分隔符能勾的就勾:
把导入数据后的A栏和B栏全选后,点击“数据有效性”,选择“整数”后设置最小值为50,最大值取大点就可以(这里选8000000,当然这个赞数在知乎应该没有出现过把?):
然后再点击“数据有效性”选择下拉菜单中的“圈释无效数据”(Excel默认一次只能选取255个点,但是255个数据点就够了):
接下来,只要没有圈释的都是超过50赞的答案,注意数字下面第二列是答主的ID,把下方的表格内容复制到B栏下对应的位置即可:
接下来,点击“筛选”,选择“文本筛选”你会看到一系列数字,选择超过50的数字(其他文字不用管!):
点“确定”按钮后,就有了雏形:
再整理一下,就规整多了。权重的计算用最简单的方式,就是答主的赞数除以中赞数:
其实最累的是归纳,你要看答主的答案,然后尽量保持客观,还要用最为简洁的语言分类,翔都看出来了,因为很多答主写的是真心多!!!!!
以上是最为愚蠢麻烦的方法。
今天又邀请了一些大V
这应该是数据挖掘被黑的最惨的一次吧
首先我觉得题主所举的例子并不能算是真正意义上的数据挖掘,因为这些信息并不需要挖掘,这只能算是信息抽取和统计。
对于网页数据的收集,最有效快捷的当然是用爬虫程序了。题主好像没有编程知识,那我就简单讲一下思路。
首先是对网页源代码进行分析。
可以看到,这个答案的id是10064295,作者是丁浩,赞数是6084.。
想获取这些数据,做一个字符串匹配就行了。例如match(count\”>(\d+))</span>就可以得到相应的赞数。
下面简单讲一下数据挖掘的例子
这是我从豆瓣网上爬下来的电影数据,大概有一万多条记录。(有很多字段的值因为太长所以显示不全)。
利用这些数据可以做那些数据挖掘呢?
比如说找出一些相似度比较高的电影,利用电影的类型,导演,演员,标签等等。同过求余弦相似度来找相似电影。
或则是想找出哪些标签是经常同时出现的、哪些导演和演员经常合作、或者是电影类型、地区和评分的关系等等。
以上的例子,只需要一些基础的数据挖掘的知识,再加上相应的工具就可以做到。
推荐书籍《数据挖掘导论》
相关工具rapidminer,Clemintine
与一般的表格式工具不同,这是通过拖动部件来处理数据的
虽然不懂数据挖掘 但从你描述的来看你是想学写爬虫?从网站里抓数据?
如果是的话很多语言都可以做 比如python
就是写个爬虫而已…
昵称*
E-Mail*
回复内容*
回复 ( 7 )
同意 土豆泥 的回答!题主贴图出来的,并不是数据挖掘,只是一个爬虫程序在网页上爬了数据,做了一个简单的统计分析。
爬虫,可以用Python实现。
统计分析,好的书籍太多。
看到这个问题,我就猜到了回事这样的内容。。。
这个不是数据挖掘!
这个不是数据挖掘!
这个不是数据挖掘!
重要的话说三遍!
我也不是一个数据统计学专业的,我也不太会编程,然后我帮题主邀请了一些大V,但愿他们会来。
我个人纯属喜欢数据统计,也很喜欢Excel,因为之前看到 @杭河苇 的答案,就找了题目做点东西玩玩。题主说到的这个如何统计超过50赞的其实很容易,我选一个之前答过的的“各个城市都有哪些千万不要去的地方?有什么特别需要注意的?”这个问题下的答案统计为例:
点“确定”按钮后,就有了雏形:
以上是最为愚蠢麻烦的方法。
今天又邀请了一些大V
这应该是数据挖掘被黑的最惨的一次吧
首先我觉得题主所举的例子并不能算是真正意义上的数据挖掘,因为这些信息并不需要挖掘,这只能算是信息抽取和统计。
对于网页数据的收集,最有效快捷的当然是用爬虫程序了。题主好像没有编程知识,那我就简单讲一下思路。
首先是对网页源代码进行分析。
可以看到,这个答案的id是10064295,作者是丁浩,赞数是6084.。
想获取这些数据,做一个字符串匹配就行了。例如match(count\”>(\d+))</span>就可以得到相应的赞数。
下面简单讲一下数据挖掘的例子
这是我从豆瓣网上爬下来的电影数据,大概有一万多条记录。(有很多字段的值因为太长所以显示不全)。
利用这些数据可以做那些数据挖掘呢?
比如说找出一些相似度比较高的电影,利用电影的类型,导演,演员,标签等等。同过求余弦相似度来找相似电影。
或则是想找出哪些标签是经常同时出现的、哪些导演和演员经常合作、或者是电影类型、地区和评分的关系等等。
以上的例子,只需要一些基础的数据挖掘的知识,再加上相应的工具就可以做到。
推荐书籍《数据挖掘导论》
相关工具rapidminer,Clemintine
与一般的表格式工具不同,这是通过拖动部件来处理数据的
虽然不懂数据挖掘 但从你描述的来看你是想学写爬虫?从网站里抓数据?
如果是的话很多语言都可以做 比如python
就是写个爬虫而已…