文本分类中是把一个文档作为一个文件然后对其处理?
1.文本分类中,对其进行分词句法标注等等操作的时候是把一个文本当作一个文件处理嘛?3.文本分类的分类符号(1,0)在哪里标注,也写到那个文本文件里嘛?2.那对于句子分类,是不是就要把一个句子当作一个文件处理呢?
查看全文非均衡数据集的分类问题该如何进行?
对于分类问题,规定以下数据全体数据 A标注数据 B非均衡数据集,无法知道全体数据的类别分布的具体比例,标注数据中的类别分布怎么规定?还有,训练集和测试集的类别分布又该如何规定?
查看全文【机器学习、最优化方法】非精确一维搜索究竟是怎么一回事?求知乎大神用通俗的语言解释一下~
小弟今年研一,最近正在学习精确一维搜索和非精确一维搜索,感觉看教科书看的快要炸掉了,越看越糊涂,完全不明白是怎么一回事;求知乎大神赐教~T_T
查看全文关于SVM核函数、非线性映射的关系?
下面这段关于SVM的总结,摘自“zouxy09”的一篇博文:“机器学习算法与Python实践之(三)支持向量机(SVM)进阶”“支持向量机的基本思想可以概括为,首先通过非线性变换将输入空间变换到一个高维的空间,然后在这个新的空间求最优分类面即最大间隔分类面,而这种非线性变换是通过定义适当的内积核函数来实现的。”是否可以这么理解:SVM的非线性映射取决于事先选定的核函数,比如选择RBF核与选择多项式核,所产生的非线性映射是不同的。也就是说,不同的核函数,对应了一种特有的非线性映射。—谢谢每一个认真回答的人!!
查看全文高维大数据如何存储?
问题是这样的,假如我有1000万个样本,每个向量有1万维,那么如果这些向量存储在数据库中就是1000万*1万的矩阵,现在的关系型数据库都是按行存储,这意味着我如果按列取每一个特征的时候将会非常麻烦。比如推荐系统中有很多数据都是高维的,不好意思啊,我还没毕业,不太清楚目前大公司是用什么方法来存储这些数据的?
查看全文关于机器学习的一些疑问?
各位看官大家好,小弟机器学习入门,有一些疑惑:1. 机器学习说白了是求一个函数f=h(x),这个函数可能是多元多次的,然后给定一组x,求y。这样理解正确吗?2. 如果特征值是字符串,比如用户id是guid,那么字符串怎么带入方程h(x)呢? 是不是和模型有关,如果是决策树,特征值可以是字符串,如果是线性模型的话,特征值只能是数值型3. 如果某一列特征值是数值型,那么数值的不同会反应他们的倍数关系吗,比如下面年龄数值,第二个用户的年龄是第一个用户的2倍,会影响最后的h(x)吗: userid, age, count 1 , 1 , 1 2 , 2 , 3 3 , 4 , 94. 现在拿到一个数据,提不出来特征,有没有介绍提取特征的书籍 […]
查看全文大数据领域都有什么发展方向?
我去咨询了一个大数据培训机构 告诉我大数据工作分为两个方向 一个是大数据开发 一个是大数据运维 大数据开发比大数据运维少很多岗位还有的说法是 分为数据挖掘和大数据平台运维开发这两个方向 而且还跟我说我只能选大数据平台运维 谁能详细解释一下大数据开发、大数据运维、数据挖掘、大数据平台运维开发都是什么啊?为什么做不了数据挖掘呢?
查看全文