1.文本分类中,对其进行分词句法标注等等操作的时候是把一个文本当作一个文件处理嘛?3.文本分类的分类符号(1,0)在哪里标注,也写到那个文本文件里嘛?2.那对于句子分类,是不是就要把一个句子当作一个文件处理呢?
查看全文什么时候使用PCA和LDA?
在机器学习进行特征选择的时候,我们花很大的力气去挑选变量。但是为什么还需要进行降维呢? 到底什么时候应该用PCA这样的工具? 是当变量数量达到一定的数目么?
查看全文北京大学机器学习有哪些不错的博士生导师?
本人对机器学习较为感兴趣,想计划报考北大博士生?有哪些导师为人nice(有的博导可能比较大牌,没空指导搭理你)。大家有推荐水平不错,但为人nice,可以让学生有提高的导师吗?
查看全文python(x,y)在linux系统怎么安装?
做词向量分析,在本地Windows系统已经实现了,但是本地内存4G,训练词向量时经常出现MemoryError。想在虚拟机上安装python(x,y),然后安装gensim,做词向量分析,但虚拟机是linux系统。所以想请教下,如何在linux系统上安装python(x,y),是不是有专门的linux版本,有的话,提供给我。谢谢啦。
查看全文数据集构造都有哪些节省人力成本的tricks?
最近在做一些机器学习相关的task,但是数据集太难构造了(文本的,主要是人工标注太辛苦,自己标了大概有1000多条文本),因此在数据集构造上有点随意,导致数据集噪声偏大,交叉验证的结果和测试集上的表现完全不一样,但是1w多条都要自己标的话会很辛苦。因此在此想问下大家遇到这个问题都是怎么做的?
查看全文问答系统中的广告挖掘算法有哪些?
问答系统,如百度百科,回答常常是垃圾广告。针对大的测试集(包括提问,回答和用户属性的数据),现在有哪些通用的算法或方法挖掘出广告回答呢
查看全文大公司里面有人专门负责标注数据吗?
比如分词类的工具,可能跟领域相关,用该领域的词典和语料来训练CRF效果应该比通用的分词器效果要好很多(特别是一些术语)。这种情况下,工程上的做法是自己找人分词?还是用规则方法结合领域词典来解决?哪个性价比更高?
查看全文数据挖掘与文本挖掘的关系是什么?有什么区别?包含、有交集还是完全不同的领域?
门外新人一枚,连入门都算不上。求问数据挖掘与文本挖掘的关系,两者哪个是主流大势呢?
查看全文截至 2016 年 3 月,机器学习、数据挖掘、计算机视觉等的泡沫有多大?
知乎上搜过,google上也用中英文搜过,没有找到近期(一年以内)对这个问题比较详细的论述
查看全文如何自动分析一篇文档的主题以及进行情感分析?
本人的研究方向是自然语言处理,想通过输入一篇文章来判断该文章的主题类别,如何实现?想要用不同类别的文章构造一个语义空间,如何实现?又比如,对于一篇英语作文,能否判断其是否切题?没有思路,希望大神可以指点迷津,谢谢!
查看全文