帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

什么时候使用PCA和LDA?

在机器学习进行特征选择的时候,我们花很大的力气去挑选变量。但是为什么还需要进行降维呢? 到底什么时候应该用PCA这样的工具? 是当变量数量达到一定的数目么?

查看全文

python(x,y)在linux系统怎么安装?

做词向量分析,在本地Windows系统已经实现了,但是本地内存4G,训练词向量时经常出现MemoryError。想在虚拟机上安装python(x,y),然后安装gensim,做词向量分析,但虚拟机是linux系统。所以想请教下,如何在linux系统上安装python(x,y),是不是有专门的linux版本,有的话,提供给我。谢谢啦。

查看全文

数据集构造都有哪些节省人力成本的tricks?

最近在做一些机器学习相关的task,但是数据集太难构造了(文本的,主要是人工标注太辛苦,自己标了大概有1000多条文本),因此在数据集构造上有点随意,导致数据集噪声偏大,交叉验证的结果和测试集上的表现完全不一样,但是1w多条都要自己标的话会很辛苦。因此在此想问下大家遇到这个问题都是怎么做的?

查看全文

大公司里面有人专门负责标注数据吗?

比如分词类的工具,可能跟领域相关,用该领域的词典和语料来训练CRF效果应该比通用的分词器效果要好很多(特别是一些术语)。这种情况下,工程上的做法是自己找人分词?还是用规则方法结合领域词典来解决?哪个性价比更高?

查看全文

如何自动分析一篇文档的主题以及进行情感分析?

本人的研究方向是自然语言处理,想通过输入一篇文章来判断该文章的主题类别,如何实现?想要用不同类别的文章构造一个语义空间,如何实现?又比如,对于一篇英语作文,能否判断其是否切题?没有思路,希望大神可以指点迷津,谢谢!

查看全文