对于分类问题,规定以下数据全体数据 A标注数据 B非均衡数据集,无法知道全体数据的类别分布的具体比例,标注数据中的类别分布怎么规定?还有,训练集和测试集的类别分布又该如何规定?
查看全文【机器学习、最优化方法】非精确一维搜索究竟是怎么一回事?求知乎大神用通俗的语言解释一下~
小弟今年研一,最近正在学习精确一维搜索和非精确一维搜索,感觉看教科书看的快要炸掉了,越看越糊涂,完全不明白是怎么一回事;求知乎大神赐教~T_T
查看全文关于SVM核函数、非线性映射的关系?
下面这段关于SVM的总结,摘自“zouxy09”的一篇博文:“机器学习算法与Python实践之(三)支持向量机(SVM)进阶”“支持向量机的基本思想可以概括为,首先通过非线性变换将输入空间变换到一个高维的空间,然后在这个新的空间求最优分类面即最大间隔分类面,而这种非线性变换是通过定义适当的内积核函数来实现的。”是否可以这么理解:SVM的非线性映射取决于事先选定的核函数,比如选择RBF核与选择多项式核,所产生的非线性映射是不同的。也就是说,不同的核函数,对应了一种特有的非线性映射。—谢谢每一个认真回答的人!!
查看全文关于机器学习的一些疑问?
各位看官大家好,小弟机器学习入门,有一些疑惑:1. 机器学习说白了是求一个函数f=h(x),这个函数可能是多元多次的,然后给定一组x,求y。这样理解正确吗?2. 如果特征值是字符串,比如用户id是guid,那么字符串怎么带入方程h(x)呢? 是不是和模型有关,如果是决策树,特征值可以是字符串,如果是线性模型的话,特征值只能是数值型3. 如果某一列特征值是数值型,那么数值的不同会反应他们的倍数关系吗,比如下面年龄数值,第二个用户的年龄是第一个用户的2倍,会影响最后的h(x)吗: userid, age, count 1 , 1 , 1 2 , 2 , 3 3 , 4 , 94. 现在拿到一个数据,提不出来特征,有没有介绍提取特征的书籍 […]
查看全文在中国是否有可能建立起美国那样的个人信用体系?目前国内征信行业是什么样的发展状况?难点有哪些?
之前和fico中国合作项目。这评分模型其实就是个逻辑回归。中国现在在大数据分析方面有那么多有实力的企业,还有那么多人才。建立起美国那样的评分体系还有哪些障碍?现在搞征信的企业我只知道阿里和平安,具体国内征信行业现在发现到什么阶段了,和美国差距还有多大?
查看全文PCA如何在高维空间中推广?
PCA是对向量进行降维,2D-PCA则是PCA在2d空间下的推广,那么PCA在更高维度空间下的推广是怎样的。哪篇文献有详细的介绍,或者有源代码
查看全文什么时候使用PCA和LDA?
在机器学习进行特征选择的时候,我们花很大的力气去挑选变量。但是为什么还需要进行降维呢? 到底什么时候应该用PCA这样的工具? 是当变量数量达到一定的数目么?
查看全文我目前的水平可以在国内做quant analysis或data mining吗?
===========================================不做quant的话可以从事data mining之类的吗?======不知道自己现在是什么水准。。。===================================================
查看全文