帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

如何提高机器学习算法的召回率?(尤其在样本集不平衡时)

最近在做文本分类,遇到了一些问题,想问问大家有没有好的方法。为了节省时间,我只采取了部分数据来跑算法(全部数据跑了之后的结果和这个差不多)训练集:4837 documents测试集:2074 documents样本比例:正样本:负样本 = 1:3预测结果中,有的算法在正样本中预测的精确率还行(0.95-1.00之间),但是召回率非常差,通常只有0.01和0.02左右,KNeighbors和DecisionTree的精确率和召回率都是0,只有NaiveBayes和BernoulliNB的PR和Recall比较平均,但是也没有到0.8。问题:我查了一下那些召回率较低(0.01)的算法,475个样本中(正样本),实际上只有5个被预测正确了 […]

查看全文

广告算法工程师的核心竞争力是什么?

计算广告中用到的算法并不是太多,很多时候是在琢磨业务,观察数据,寻找特征,反复试验。工作一段时间下来,相对搞深度学习的朋友感觉自己学到的太少了。搞深度学习的不断的学习新算法,图像方面的还可以做出漂亮的demo,很容易就能够向人证明自己的工作,自己的实力、竞争力。那么对于做广告算法的工程师而言,核心竞争力在哪呢?花了大量时间折腾数据,偏偏这方面还没啥好说的。搞广告算法,最终可以在简历上留下什么呢?不知道有没有过来人可以解答一下,这个问题应该会是不少初入这行的同学的困惑吧?

查看全文

有什么常用的数据分析以及数据处理的方法或者书籍?

工作中经常会提取出一堆数据【十万级】在不同维度的特征,这些数据中存在异常点,经验估计异常点数量占比约10%左右,具体在哪些特征上异常未知,并且没有标注数据,我的问题有两个:1)包含比例的特征,比如同样是100%,10/10,和100/100是不同的,有哪些方法可以衡量,2)如何发掘这些数据中比较异常的点?

查看全文

拒绝推断问题?

问题是0、1分类有分类器A,分类器A(也是用于同一分类,暂且认为这个分类器是有效的,好于随机但也不够理想)判断为1以后,才可以知道样本的真实标签,换句话说,样本有两个标签,真实标签和是否通过分类器A。如果没有通过分类器A,那么也没有真实标签。问:现在需要训练分类器B取代分类器A,但可以用的有真实标签的样本是已经通过了分类器A的。现在分类器A已经没有了,而且不可知。如果只用知道样本的真实标签的数据进行训练比如会出现偏差(因为分类器A已经过滤了一部分)。怎么处理这个问题?或者说怎么将原本没有通过A的样本的标签表示出来?

查看全文

目前的时间序列预测的state of the art 方法?

注意,是时间序列的预测问题(特别是只预测一个y值)。实际问题场景如下描述:首先是时间轴,共5个月,每天中的每个时间段(24个)的y值,然后预测第六个月(或只是第六个月第一周)的每天的24个时间段的y值。这里的y值是类似于某一公园的总客流量这样的变量。因此y值受当天天气、节假日等因素的影响。关于预测方法,我查过之后,得知主要有三类方法:1,线性回归之类的,这类方法我比较熟悉,可以将上述(天气、节假日)的因素提取特征加进去;2,ARIMA类的经典时间序列方法;3,RNN和LSTM等机器学习方法。只是我对2和3了解很少,不知道如何将上述(天气、节假日)的因素提取特征加进去?所以,1:目前这类问题最好的方法是哪一类?2:如果使用LSTM或R […]

查看全文

请问网易游戏(广州)数据挖掘研究员的情况?

求助万能的知乎~前段时间拿到了那边的offer,但是对这个职位一直处于不了解的状态。个人比较喜欢做数据挖掘方面的事情,家也在南方,所以投递了这个职位。有以下一些疑虑,想向知情人士询问:(1) 游戏里的数据挖掘目前似乎还没有发展起来,这方面的资料也较少。是不是从侧面上说明,游戏里的数据挖掘是否相对冷门且起的作用并不大(相较于游戏角色设计、场景设计及相关美工等)?这会不会对今后的职业发展有所限制?(2) 这个职位的主要工作是什么?听说主要是数据的清洗、统计和存储相关,那么是否能用到常用的机器学习方面的模型和算法?有什么应用场景?希望能得到相关人士的回答,非常感谢。

查看全文

想要申请伯克利的信息学院的data science的master,求大神介绍一下?

小弟目前211大三数学专业在读,想要申请UCB的data science的master,但是找了很久也没有在官网上找到详细的介绍,求大神们介绍一下可以申请的有哪些专业方向,以及有哪些比较好的教授,还有比较关心的是对这个专业的master的申请来说,paper和实习经历上,怎么样能够比较出彩? 其次,还想问一下machine learning的PhD的情况,同样的,能不能也请介绍一下有哪些比较好的教授以及这个专业的设置情况,多谢!

查看全文