非从业人员，如何达到这种数据挖掘能力？

理由

举报取消

2018年1月19日 7 条回复 1797 次浏览

数据,数据挖掘,数据统计

回复 ( 7 )

Ryan Fan 管理专家
0
举报回复
理由

举报取消

同意土豆泥的回答！题主贴图出来的，并不是数据挖掘，只是一个爬虫程序在网页上爬了数据，做了一个简单的统计分析。

爬虫，可以用Python实现。

统计分析，好的书籍太多。
Feder 初入职场
0
举报回复
理由

举报取消

看到这个问题，我就猜到了回事这样的内容。。。
土豆泥初入职场
0
举报回复
理由

举报取消

这个不是数据挖掘！

这个不是数据挖掘！

这个不是数据挖掘！

重要的话说三遍！

我也不是一个数据统计学专业的，我也不太会编程，然后我帮题主邀请了一些大V，但愿他们会来。

我个人纯属喜欢数据统计，也很喜欢Excel，因为之前看到 @杭河苇的答案，就找了题目做点东西玩玩。题主说到的这个如何统计超过50赞的其实很容易，我选一个之前答过的的“各个城市都有哪些千万不要去的地方？有什么特别需要注意的？”这个问题下的答案统计为例：

一共334个答案，接下来Ctrl+A全选，然后copy到txt文档中：

然后打开Excel，我这里是07版的，选“数据”中从“自文本”导入，记得要把分隔符能勾的就勾：

把导入数据后的A栏和B栏全选后，点击“数据有效性”，选择“整数”后设置最小值为50，最大值取大点就可以（这里选8000000，当然这个赞数在知乎应该没有出现过把？）：

然后再点击“数据有效性”选择下拉菜单中的“圈释无效数据”（Excel默认一次只能选取255个点，但是255个数据点就够了）：

接下来，只要没有圈释的都是超过50赞的答案，注意数字下面第二列是答主的ID，把下方的表格内容复制到B栏下对应的位置即可：

接下来，点击“筛选”，选择“文本筛选”你会看到一系列数字，选择超过50的数字（其他文字不用管！）：

点“确定”按钮后，就有了雏形：

再整理一下，就规整多了。权重的计算用最简单的方式，就是答主的赞数除以中赞数：

其实最累的是归纳，你要看答主的答案，然后尽量保持客观，还要用最为简洁的语言分类，翔都看出来了，因为很多答主写的是真心多！！！！！

以上是最为愚蠢麻烦的方法。

今天又邀请了一些大V
赵程亮初入职场
0
举报回复
理由

举报取消

这应该是数据挖掘被黑的最惨的一次吧
梁不正初入职场
0
举报回复
理由

举报取消

首先我觉得题主所举的例子并不能算是真正意义上的数据挖掘，因为这些信息并不需要挖掘，这只能算是信息抽取和统计。

对于网页数据的收集，最有效快捷的当然是用爬虫程序了。题主好像没有编程知识，那我就简单讲一下思路。

首先是对网页源代码进行分析。

可以看到，这个答案的id是10064295，作者是丁浩，赞数是6084.。

想获取这些数据，做一个字符串匹配就行了。例如match(count\”>(\d+))</span>就可以得到相应的赞数。

下面简单讲一下数据挖掘的例子

这是我从豆瓣网上爬下来的电影数据，大概有一万多条记录。（有很多字段的值因为太长所以显示不全）。

利用这些数据可以做那些数据挖掘呢？

比如说找出一些相似度比较高的电影，利用电影的类型，导演，演员，标签等等。同过求余弦相似度来找相似电影。

或则是想找出哪些标签是经常同时出现的、哪些导演和演员经常合作、或者是电影类型、地区和评分的关系等等。

以上的例子，只需要一些基础的数据挖掘的知识，再加上相应的工具就可以做到。

推荐书籍《数据挖掘导论》

相关工具rapidminer，Clemintine

与一般的表格式工具不同，这是通过拖动部件来处理数据的
Chuang Yu 初入职场
0
举报回复
理由

举报取消

虽然不懂数据挖掘但从你描述的来看你是想学写爬虫？从网站里抓数据？

如果是的话很多语言都可以做比如python
匿名用户管理大师
0
举报回复
理由

举报取消

就是写个爬虫而已…