帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

聚类与分类有什么区别?

首先对经验数据进行分析,得到特征属性,以此特性进行挖掘,希望得到划分结果,这属于聚类还是分类?例如,已购买某产品的用户具有一些特性,得到用户画像,我采用某种算法分析出大量用户中可能购买此商品的用户群,这是聚类还是分类?虽然我事先知道划分的结果是可能/不可能,但这个应该属于聚类吧?另外,如能够传授些聚类算法,用于分析用户的就更感谢了!

查看全文

没有标注正负样本的情况下如何评估分类结果?

评估分类结果的好坏时,一般用准确率和召回率,但是这个方法的前提是我有标注的正负样本。如果我没有正负样本的情况下,怎么知道我的分类结果好不好?一定要通过标注正负样本,然后计算F-Score来评估吗?比如:我在新浪微博随机抓取了1000万用户,我通过一些特征或规则,可以判断这些用户的性别,是否已婚,是否单身等等,那么我的这些规则可以看成是一个分类模型。在这种情况下,有什么办法可以评估我这个分类模型是否合理,或者如何评估我的这个分类模型的好坏呢?有没有比较通用的方法?

查看全文

有关R语言、weka以及Python+库的联系及区别?

我们知道标题中出现的三类产品是数据挖掘常用的工具,我的问题有二:其一,前二分别更倾向于实际工程还是学术研究?:如果是实际工程中广泛应用的话,请列举国内外厂商的实际应用案例,简单说就是在何种应用场景下实现了哪些功能(如果您在实际研发过程中使用过前两者,也欢迎探讨),如沃尔玛用weka完成了一个什么事情(各类搜索引擎很少涉略这方面资料,需借助各位的内部信息源);如果是学术领域,也请列举相关含金量较高的专利;其二,近来几个大数据项目均告一段落,想抽身做一个小科研,请推荐数据挖掘、数据可视化等方向有趣有料有价值的小课题。谢谢您!

查看全文

做大数据方向还是做互联网方向的开发好?求职业规划

先介绍一下背景吧,目前刚毕业在一家外企做java后台开发,用的都是公司自己的框架,我的工作比较杂,虽说是开发,但大部分都是些琐碎的任务,没啥技术含量,也怪自己入职前没有了解清楚。外企的工作文化比较轻松,感觉像温水煮青蛙,上班三个月了很迷茫,也没导师带,过多关于公司的槽点我就不吐了,俗话说穷则思变,所以有以下几个问题:1,未来往哪个方向发展?感觉现在最火的两个领域就是互联网和大数据,而我主要是做java web的,也有一些Spring+Hibernate开发的经验,在考虑是否要去互联网公司磨练自己的能力。另一方面,大数据、数据挖掘也是潜力很大的一个方向,前段时间刚出的《大数据纲要》似乎也表明国家对这方面的重视,不过我对于大数据是没有任 […]

查看全文