帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

世界是在向人工智能方向发展吗?

1,我最近在学习机器学习,我的习惯是理清思路再学习。之前学习后台开发,也曾对大数据和云计算进行归纳。2,我发现机器学习更多的是为了数据挖掘提供算法模型,面向算法模型的。而数据挖掘更多的是面向应用,比如推荐系统,反垃圾系统。数据分析更注重软件的使用,比如R,SPSS,面向工具。3,那么我的问题就来了,这数据分析,数据挖掘,机器学习,大数据,云计算,它们的上一级是什么?是IT行业吗?4,后来我粗略的搜索下,我发现它们上一级更应该是“人工智能”,它们都只是人工智能的分支,人工智能的分支很多,还有自然语言处理,视觉处理,机器人学等等。5,这些分支并没有严格的界定,它们甚至是相互结合的,我这里只是为了理清思路将它们分离出来。6,那么说,各行各 […]

查看全文

数据集构造都有哪些节省人力成本的tricks?

最近在做一些机器学习相关的task,但是数据集太难构造了(文本的,主要是人工标注太辛苦,自己标了大概有1000多条文本),因此在数据集构造上有点随意,导致数据集噪声偏大,交叉验证的结果和测试集上的表现完全不一样,但是1w多条都要自己标的话会很辛苦。因此在此想问下大家遇到这个问题都是怎么做的?

查看全文

学习数据挖掘,机器学习的正确姿势?

大半年过去了,数据挖掘无疑是充满想像力的工作,不过我还是转行做软件开发了。linux和windows系统编程。感觉这方面我比数据分析专业得多。转行的原因主要有两个吧1公司没多少数据,2数学不过硬。谢谢各位大佬的建议===如题,希望各位大侠给点建议,少走点弯路。在下并非纯正cs血统,找工作的目标是后台开发,面试时也是冲着这个来的。 算法,系统,网络,编译原理这些学得还过得去吧,但是入职后却被安排做数据挖掘这块。 在下对这方面基本一窍不通,也想不明白为什么会被安排这个工作,在下只是想开发些软件,写点小代码。 男人不能说不行,只能上了,目前在看‘数据挖掘导论’,感觉hard,主要是数学忘记得差不多了。 说实话,在下的性趣不在数据分析,对数 […]

查看全文

如何系统地学习Python 中 matplotlib, numpy, scipy, pandas?

最近在学习python绘制图形的相关知识,学习到了这几个库,所以想请教一下各位知友。希望用python来做数据挖掘相关的任务。想问问各位知友,python做数据挖掘是否足够强大?学习数据挖掘需要学习哪些知识呢?我是一个本科生,本科学习的话能从事数据挖掘相关工作吗?

查看全文

美国机器学习方向的 master 找工作前景如何?

是这样的,题主最近刚来美国读书,一直对机器学习感兴趣,所以想以后也从事相关方向。但是通过最近自己找实习以及周围同学找实习的经历,题主发现机器学习方向对Master似乎没那么友好(也可能是我以及我周围的Master水平恰好都不行),因为Master的研究能力以及对各种模型的理解可能普遍不如PhD。我推测,原因可能是机器学习岗位本身就没有其他开发岗位多,再加上近年机器学习方向PhD学生很多,导致Master没那么容易找到实习或者正式工作。以上都是我的一点看法以及推测,在这里我是想问一下大家的了解。在机器学习方向,一般的Master都不如PhD对模型理解深入,研究能力也一般不如PhD(可能就是工程能力能跟PhD比一比?)。那么这种情况下M […]

查看全文

如何提高机器学习算法的召回率?(尤其在样本集不平衡时)

最近在做文本分类,遇到了一些问题,想问问大家有没有好的方法。为了节省时间,我只采取了部分数据来跑算法(全部数据跑了之后的结果和这个差不多)训练集:4837 documents测试集:2074 documents样本比例:正样本:负样本 = 1:3预测结果中,有的算法在正样本中预测的精确率还行(0.95-1.00之间),但是召回率非常差,通常只有0.01和0.02左右,KNeighbors和DecisionTree的精确率和召回率都是0,只有NaiveBayes和BernoulliNB的PR和Recall比较平均,但是也没有到0.8。问题:我查了一下那些召回率较低(0.01)的算法,475个样本中(正样本),实际上只有5个被预测正确了 […]

查看全文