帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

没有标注正负样本的情况下如何评估分类结果?

评估分类结果的好坏时,一般用准确率和召回率,但是这个方法的前提是我有标注的正负样本。如果我没有正负样本的情况下,怎么知道我的分类结果好不好?一定要通过标注正负样本,然后计算F-Score来评估吗?比如:我在新浪微博随机抓取了1000万用户,我通过一些特征或规则,可以判断这些用户的性别,是否已婚,是否单身等等,那么我的这些规则可以看成是一个分类模型。在这种情况下,有什么办法可以评估我这个分类模型是否合理,或者如何评估我的这个分类模型的好坏呢?有没有比较通用的方法?

查看全文

数据挖掘相关的岗位的社招面试该如何准备?

我面的大部分是数据挖掘,机器学习,推荐算法相关等岗位。我的经验是,阿里比较重视项目经验(总是为你通过什么方法效果提升了多少),百度比较重视数据结构和算法的基本功。那么问题来了,1 并不是每个项目都能成功,提升到很好的效果,也就是没有成功的项目经验,那么怎么办? 2 数据结构和算法,其实工作中大部分是数据处理的工作,面试中遇到的相关题目很少在工作中遇到,比如排序一般都是用语言自带的排序,反转单链表这种问题工作有种也不会遇到,既然工作中不怎么会遇到的问题为啥面试那么重视? 3 公式推导和理论有多重要?

查看全文

机器能学习机器学习吗?

1、机器学习现在有多种算法,很多问题的解决是将这些算法合理地组织起来,再加以训练,本质上是对算法策略的搜索,理论上是否可能训练机器来搜索最优的组合策略?2、进一步地,理论上是否可能以机器学习的算法为训练集,演绎出新的机器学习算法?

查看全文

如何综合评价一个算法的有效性?

我现在有30组数据,使用一个算法计算每组数据,所的结果可以做出一条有明显峰值的曲线或平缓的曲线,对其中一组数据来说,如果做出来的曲线有明显峰值则认为算法是有效的,现在我想综合评价这30组数据,判断算法的性能,请问有什么方法吗?

查看全文

为什么在周末LOL容易跪?

虽然说小学生多,但是我这边最多4个小学生吧,对面可能5个啊,按道理来说,乘着小学生多上分啊(而且如果我这边4小学生对面5个小学生,我这样一场赢下来是净打败了一个小学生,这样来说这是制裁小学生正义之举的大好时机),怎么结果不是这样的,是不是有小学生保护机制?我知道这个游戏主要不是维护50%胜率,那好我输了继续玩,赢的机会大一些吧,但是周末完全都是跪的。周末单排的时候感觉队友的质量没有对面好(其他的时候不觉得,我周末也是打了很多个周末,双排倒是正常),LOL排位最多2人双排吧,不会把个人排到战队赛去吧,但是总感觉对面有种4,5人黑的感觉,莫非小学生们的胜率或者保护机制认为他们的真正水平很低,所以一到周末就把那些大神胜率高的排在一起保护他 […]

查看全文

World final和创业之间应该如何抉择?

已经打了很多年ACM了,但实力所限未曾进入world final。这个赛季即将结束,但是已经没有希望了。明年可能是最后一次进入final的机会了,我也有较大把握能在明年进入final。但与此同时,我与一位朋友一起在创业(主要是朋友,但我也有少量股权),创业项目是蓝海,不是互联网的。现在公司还在初创期,跟着朋友一起可以学到很多相关经验,无论创业是否成功收获都是巨大的。现在面临的选择是,如果冲击World Final肯定就要投入大量精力在ACM上面,而且也有可能无法进入World Final,还错过了创业的初期。但是如果放弃的话,这辈子就再也没有机会进入World Final, 多年的ACM生涯必定留下深深的遗憾。到下个赛季开始还有近一 […]

查看全文

基于引文的论文推荐系统的相似矩阵如何有效的形成?

本人刚接触文本数据的学习,目前想得到有关论文数据集的几个相似矩阵,论文数据信息(已经筛选,剔除了信息不完整的论文)已插入数据库(mysql)中,总共含有26篇论文数据。存储信息如下:id是插入数据库时形成的id;paper是论文题目;name是文章的所有作者;date是出版时间;journal是出版机构;indexx是论文在整个论文数据集中的索引;qoutee是该论文的引用;(是被引用论文在数据集中索引,因一篇论文有多篇引用,故以#%分隔开,)abstra是论文的摘要;需求:现在想得到论文之间的互相引用情况,形成一个26万X26万的矩阵,如果论文A引用B,等同于B被A引用,则矩阵中P[A][B]=1,同时P[B][A]=-1,如果A […]

查看全文