最近在做文本分类,遇到了一些问题,想问问大家有没有好的方法。为了节省时间,我只采取了部分数据来跑算法(全部数据跑了之后的结果和这个差不多)训练集:4837 documents测试集:2074 documents样本比例:正样本:负样本 = 1:3预测结果中,有的算法在正样本中预测的精确率还行(0.95-1.00之间),但是召回率非常差,通常只有0.01和0.02左右,KNeighbors和DecisionTree的精确率和召回率都是0,只有NaiveBayes和BernoulliNB的PR和Recall比较平均,但是也没有到0.8。问题:我查了一下那些召回率较低(0.01)的算法,475个样本中(正样本),实际上只有5个被预测正确了 […]
查看全文广告算法工程师的核心竞争力是什么?
计算广告中用到的算法并不是太多,很多时候是在琢磨业务,观察数据,寻找特征,反复试验。工作一段时间下来,相对搞深度学习的朋友感觉自己学到的太少了。搞深度学习的不断的学习新算法,图像方面的还可以做出漂亮的demo,很容易就能够向人证明自己的工作,自己的实力、竞争力。那么对于做广告算法的工程师而言,核心竞争力在哪呢?花了大量时间折腾数据,偏偏这方面还没啥好说的。搞广告算法,最终可以在简历上留下什么呢?不知道有没有过来人可以解答一下,这个问题应该会是不少初入这行的同学的困惑吧?
查看全文有什么常用的数据分析以及数据处理的方法或者书籍?
工作中经常会提取出一堆数据【十万级】在不同维度的特征,这些数据中存在异常点,经验估计异常点数量占比约10%左右,具体在哪些特征上异常未知,并且没有标注数据,我的问题有两个:1)包含比例的特征,比如同样是100%,10/10,和100/100是不同的,有哪些方法可以衡量,2)如何发掘这些数据中比较异常的点?
查看全文时态数据挖掘(Temporal Data Mining)是个怎么样的研究领域?
时态数据挖掘(Temporal Data Mining)是个怎么样的研究领域?如题,这类问题和传统的机器学习与时间序列建模有何区别和联系?最好有个简单的综述?
查看全文目前的时间序列预测的state of the art 方法?
注意,是时间序列的预测问题(特别是只预测一个y值)。实际问题场景如下描述:首先是时间轴,共5个月,每天中的每个时间段(24个)的y值,然后预测第六个月(或只是第六个月第一周)的每天的24个时间段的y值。这里的y值是类似于某一公园的总客流量这样的变量。因此y值受当天天气、节假日等因素的影响。关于预测方法,我查过之后,得知主要有三类方法:1,线性回归之类的,这类方法我比较熟悉,可以将上述(天气、节假日)的因素提取特征加进去;2,ARIMA类的经典时间序列方法;3,RNN和LSTM等机器学习方法。只是我对2和3了解很少,不知道如何将上述(天气、节假日)的因素提取特征加进去?所以,1:目前这类问题最好的方法是哪一类?2:如果使用LSTM或R […]
查看全文请问网易游戏(广州)数据挖掘研究员的情况?
求助万能的知乎~前段时间拿到了那边的offer,但是对这个职位一直处于不了解的状态。个人比较喜欢做数据挖掘方面的事情,家也在南方,所以投递了这个职位。有以下一些疑虑,想向知情人士询问:(1) 游戏里的数据挖掘目前似乎还没有发展起来,这方面的资料也较少。是不是从侧面上说明,游戏里的数据挖掘是否相对冷门且起的作用并不大(相较于游戏角色设计、场景设计及相关美工等)?这会不会对今后的职业发展有所限制?(2) 这个职位的主要工作是什么?听说主要是数据的清洗、统计和存储相关,那么是否能用到常用的机器学习方面的模型和算法?有什么应用场景?希望能得到相关人士的回答,非常感谢。
查看全文想要申请伯克利的信息学院的data science的master,求大神介绍一下?
小弟目前211大三数学专业在读,想要申请UCB的data science的master,但是找了很久也没有在官网上找到详细的介绍,求大神们介绍一下可以申请的有哪些专业方向,以及有哪些比较好的教授,还有比较关心的是对这个专业的master的申请来说,paper和实习经历上,怎么样能够比较出彩? 其次,还想问一下machine learning的PhD的情况,同样的,能不能也请介绍一下有哪些比较好的教授以及这个专业的设置情况,多谢!
查看全文