自然语言 - 12Reads管理问答 - 第2页

帐户注册

用户名*

邮箱*

密码*

确认密码*

头像

浏览

验证码* 点击图片更换验证码

登录

找回密码

忘记密码了？输入你的注册邮箱，并点击重置，稍后，你将会收到一封密码重置邮件。

文本分类中是把一个文档作为一个文件然后对其处理？

Sundays Zhang 2017-10-13 954 次浏览

1.文本分类中，对其进行分词句法标注等等操作的时候是把一个文本当作一个文件处理嘛？3.文本分类的分类符号（1，0）在哪里标注，也写到那个文本文件里嘛？2.那对于句子分类，是不是就要把一个句子当作一个文件处理呢？

查看全文

什么时候使用PCA和LDA？

卡牌大师 2017-09-30 1992 次浏览

在机器学习进行特征选择的时候，我们花很大的力气去挑选变量。但是为什么还需要进行降维呢？到底什么时候应该用PCA这样的工具？是当变量数量达到一定的数目么？

查看全文

北京大学机器学习有哪些不错的博士生导师？

sharp still 2017-09-26 2209 次浏览

本人对机器学习较为感兴趣，想计划报考北大博士生？有哪些导师为人nice（有的博导可能比较大牌，没空指导搭理你）。大家有推荐水平不错，但为人nice，可以让学生有提高的导师吗？

查看全文

python(x,y)在linux系统怎么安装？

空城旧眸 2017-09-25 948 次浏览

做词向量分析，在本地Windows系统已经实现了，但是本地内存4G，训练词向量时经常出现MemoryError。想在虚拟机上安装python(x,y)，然后安装gensim，做词向量分析，但虚拟机是linux系统。所以想请教下，如何在linux系统上安装python(x,y)，是不是有专门的linux版本，有的话，提供给我。谢谢啦。

查看全文

数据集构造都有哪些节省人力成本的tricks？

Bayron Pan 2017-09-18 1209 次浏览

最近在做一些机器学习相关的task，但是数据集太难构造了（文本的，主要是人工标注太辛苦，自己标了大概有1000多条文本），因此在数据集构造上有点随意，导致数据集噪声偏大，交叉验证的结果和测试集上的表现完全不一样，但是1w多条都要自己标的话会很辛苦。因此在此想问下大家遇到这个问题都是怎么做的？

查看全文

问答系统中的广告挖掘算法有哪些？

lotte lee 2017-09-08 1383 次浏览

问答系统，如百度百科，回答常常是垃圾广告。针对大的测试集（包括提问，回答和用户属性的数据），现在有哪些通用的算法或方法挖掘出广告回答呢

查看全文

大公司里面有人专门负责标注数据吗？

伏牛 2017-09-04 1582 次浏览

比如分词类的工具，可能跟领域相关，用该领域的词典和语料来训练CRF效果应该比通用的分词器效果要好很多（特别是一些术语）。这种情况下，工程上的做法是自己找人分词？还是用规则方法结合领域词典来解决？哪个性价比更高？

查看全文

数据挖掘与文本挖掘的关系是什么？有什么区别？包含、有交集还是完全不同的领域？

Hello World 2017-09-03 1612 次浏览

门外新人一枚，连入门都算不上。求问数据挖掘与文本挖掘的关系，两者哪个是主流大势呢？

查看全文

截至 2016 年 3 月，机器学习、数据挖掘、计算机视觉等的泡沫有多大？

邱昊宇 2017-08-31 1736 次浏览

知乎上搜过，google上也用中英文搜过，没有找到近期（一年以内）对这个问题比较详细的论述

查看全文

如何自动分析一篇文档的主题以及进行情感分析？

木子李 2017-08-25 1359 次浏览

本人的研究方向是自然语言处理，想通过输入一篇文章来判断该文章的主题类别，如何实现？想要用不同类别的文章构造一个语义空间，如何实现？又比如，对于一篇英语作文，能否判断其是否切题？没有思路，希望大神可以指点迷津，谢谢！

查看全文

1 2 3 4