帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

没有标注正负样本的情况下如何评估分类结果?

评估分类结果的好坏时,一般用准确率和召回率,但是这个方法的前提是我有标注的正负样本。如果我没有正负样本的情况下,怎么知道我的分类结果好不好?一定要通过标注正负样本,然后计算F-Score来评估吗?比如:我在新浪微博随机抓取了1000万用户,我通过一些特征或规则,可以判断这些用户的性别,是否已婚,是否单身等等,那么我的这些规则可以看成是一个分类模型。在这种情况下,有什么办法可以评估我这个分类模型是否合理,或者如何评估我的这个分类模型的好坏呢?有没有比较通用的方法?

查看全文

利用大数据能识别淫秽视频吗?

最近快播案炒的沸沸扬扬,作为一个技术人员,从技术的角度考虑大数据能否识别淫秽视频!本人才疏学浅,了解十分有限,求大神分析从大数据聚类和机器学习两个领域来做这件事的可行性

查看全文

训练集合中,标签大量缺失,是否有比较成熟的处理方式?

注意:是标签缺失,并不是数据缺失拒绝推断问题问题是0、1分类有分类器A,分类器A(也是用于同一分类,暂且认为这个分类器是有效的,好于随机但也不够理想)判断为1以后,才可以知道样本的真实标签,换句话说,样本有两个标签,真实标签和是否通过分类器A。如果没有通过分类器A,那么也没有真实标签。问:现在需要训练分类器B取代分类器A,但可以用的有真实标签的样本是已经通过了分类器A的。现在分类器A已经没有了,而且不可知。如果只用知道样本的真实标签的数据进行训练比如会出现偏差(因为分类器A已经过滤了一部分)。怎么处理这个问题?或者说怎么将原本没有通过A的样本的标签表示出来?

查看全文

数据挖掘相关的岗位的社招面试该如何准备?

我面的大部分是数据挖掘,机器学习,推荐算法相关等岗位。我的经验是,阿里比较重视项目经验(总是为你通过什么方法效果提升了多少),百度比较重视数据结构和算法的基本功。那么问题来了,1 并不是每个项目都能成功,提升到很好的效果,也就是没有成功的项目经验,那么怎么办? 2 数据结构和算法,其实工作中大部分是数据处理的工作,面试中遇到的相关题目很少在工作中遇到,比如排序一般都是用语言自带的排序,反转单链表这种问题工作有种也不会遇到,既然工作中不怎么会遇到的问题为啥面试那么重视? 3 公式推导和理论有多重要?

查看全文