发起人:胡彧宸 初入职场

前伪理工男,后伪文科男

回复 ( 7 )

  1. Ryan Fan
    理由
    举报 取消

    同意 土豆泥 的回答!题主贴图出来的,并不是数据挖掘,只是一个爬虫程序在网页上爬了数据,做了一个简单的统计分析。

    爬虫,可以用Python实现。

    统计分析,好的书籍太多。

  2. Feder
    理由
    举报 取消

    看到这个问题,我就猜到了回事这样的内容。。。

  3. 土豆泥
    理由
    举报 取消

    这个不是数据挖掘!

    这个不是数据挖掘!

    这个不是数据挖掘!

    重要的话说三遍!

    我也不是一个数据统计学专业的,我也不太会编程,然后我帮题主邀请了一些大V,但愿他们会来。

    我个人纯属喜欢数据统计,也很喜欢Excel,因为之前看到 @杭河苇 的答案,就找了题目做点东西玩玩。题主说到的这个如何统计超过50赞的其实很容易,我选一个之前答过的的“各个城市都有哪些千万不要去的地方?有什么特别需要注意的?”这个问题下的答案统计为例:

    一共334个答案,接下来Ctrl+A全选,然后copy到txt文档中:

    然后打开Excel,我这里是07版的,选“数据”中从“自文本”导入,记得要把分隔符能勾的就勾:

    把导入数据后的A栏和B栏全选后,点击“数据有效性”,选择“整数”后设置最小值为50,最大值取大点就可以(这里选8000000,当然这个赞数在知乎应该没有出现过把?):

    然后再点击“数据有效性”选择下拉菜单中的“圈释无效数据”(Excel默认一次只能选取255个点,但是255个数据点就够了):

    接下来,只要没有圈释的都是超过50赞的答案,注意数字下面第二列是答主的ID,把下方的表格内容复制到B栏下对应的位置即可:

    接下来,点击“筛选”,选择“文本筛选”你会看到一系列数字,选择超过50的数字(其他文字不用管!):

    “确定”按钮后,就有了雏形:

    再整理一下,就规整多了。权重的计算用最简单的方式,就是答主的赞数除以中赞数

    其实最累的是归纳,你要看答主的答案,然后尽量保持客观,还要用最为简洁的语言分类,翔都看出来了,因为很多答主写的是真心多!!!!!

    以上是最为愚蠢麻烦的方法。

    今天又邀请了一些大V

  4. 赵程亮
    理由
    举报 取消

    这应该是数据挖掘被黑的最惨的一次吧

  5. 梁不正
    理由
    举报 取消

    首先我觉得题主所举的例子并不能算是真正意义上的数据挖掘,因为这些信息并不需要挖掘,这只能算是信息抽取和统计。

    对于网页数据的收集,最有效快捷的当然是用爬虫程序了。题主好像没有编程知识,那我就简单讲一下思路。

    首先是对网页源代码进行分析。

    可以看到,这个答案的id是10064295,作者是丁浩,赞数是6084.。

    想获取这些数据,做一个字符串匹配就行了。例如match(count\”>(\d+))</span>就可以得到相应的赞数。

    下面简单讲一下数据挖掘的例子

    这是我从豆瓣网上爬下来的电影数据,大概有一万多条记录。(有很多字段的值因为太长所以显示不全)。

    利用这些数据可以做那些数据挖掘呢?

    比如说找出一些相似度比较高的电影,利用电影的类型,导演,演员,标签等等。同过求余弦相似度来找相似电影。

    或则是想找出哪些标签是经常同时出现的、哪些导演和演员经常合作、或者是电影类型、地区和评分的关系等等。

    以上的例子,只需要一些基础的数据挖掘的知识,再加上相应的工具就可以做到。

    推荐书籍《数据挖掘导论》

    相关工具rapidminer,Clemintine

    与一般的表格式工具不同,这是通过拖动部件来处理数据的

  6. Chuang Yu
    理由
    举报 取消

    虽然不懂数据挖掘 但从你描述的来看你是想学写爬虫?从网站里抓数据?

    如果是的话很多语言都可以做 比如python

  7. 匿名用户
    理由
    举报 取消

    就是写个爬虫而已…

我来回答

Captcha 点击图片更换验证码