自然语言 - 12Reads管理问答

有哪些应该去实现一遍的机器学习和自然语言处理的算法？

Igor W 2018-02-03 1423 次浏览

NLTK和sklearn等python类库已经实现了一项任务中大多数需要的工具。理解算法后也能够应用，包括一些调参的部分。但总感觉工程能力不足，只能流程化得完成一项任务。中间总觉得差点什么。是不是应该去实现一些算法和基础ETL代码来增加编程能力？

查看全文

有没有能够获取任意两个词同时出现的概率的数据库？

申祷无 2018-01-28 1375 次浏览

类似我在百度上搜索这个：“有向无环图” “前额叶皮质”引号不能去掉，否则关键词会被拆分。只能搜到8个结果。这两个词同时出现的概率应该是相当低了。我想要大量调用这个功能，估计用百度调用次数多了肯定会被限制，有没有什么地方能够下载这种数据库或者无限调用这个东西？不需要非常全，只要能大幅度减少调用百度的次数就行了。

查看全文

应届百度凤巢，微软Bing广告，机器学习offer求比较，望大神指点？

Shuen KUNG 2018-01-10 1645 次浏览

百度是凤巢model组做ctr方面的，微软是Bing广告算法组，做触发方面。都在北京，不想出国。请教个人发展与风险，希望知乎了解的大牛们不吝赐教，非常感谢。

查看全文

jieba中文分析怎么导入自己的数据集啊？

Robot 2017-12-26 1725 次浏览

网上很多都是自带的数据集，这个数据集应该是什么格式啊？

查看全文

文本聚类目前的研究现状是什么样的？如果想从事相关研究有哪些好的研究方向吗？

蓁蓁尔 2017-12-23 1032 次浏览

查看全文

word2vec Out of dictionary word!为什么呢？

黄轩峰 2017-12-23 1682 次浏览

在虚拟机win 8下运用Xshell连接到linux服务器运行这个word2vec，各项工作都已做好，为什么运行distance vectors.bin的时候出现了Out of dictionary word!。另外，我没用distance vectors.bin命令，直接用java代码来解决bin文件，结果eclipse崩了补充一句：语料是我自己分好词的UTF8文本，再者我在文本里直接写入几个词来运行都不行啊。请各位大神解答一下，多谢。

查看全文

数据挖掘入门基础知识疑惑？

邓冇 2017-12-21 1949 次浏览

本科阶段只学过C语言，外加一些线性代数，概率论的知识。现在硕士阶段进行数据挖掘、自然语言处理的学习中感觉到力不从心。不知道从何去入手，有一堆书也不知道先后顺序或者如何搭配。数据结构与算法、离散数学、数据库等内容也不清楚。总而言之就是相当之困惑，感觉前景一片黑暗，希望能有人帮我解下惑，不胜感激！！

查看全文

文本处理同义词替换中的多义词问题？

鱼小贱 2017-12-21 1504 次浏览

想对处理的文本中的同义词进行替换，拟采用的方案是，比如读入同义词列表{Ah14C02= 心肝宝贝心肝宝贝宠儿命根子掌上明珠命根宝贝儿}，然后扫描文本，将出现在这个列表中的所有词语都替换为第一个：心肝，或者前面的代码：Ah14C02。但在实际的操作中却遇到了问题，同一个词存在多义，比如对于前面的“宝贝”，还同时存在于列表{Ba08A01= 宝物宝贝宝珍琛珍品珍宝至宝无价宝瑰}中，这时候如果文本中遇到了“宝贝”这个词就不知道应该替换为“心肝”还是“宝物”了。因为自己不是相关方向的，谷歌也没有找到其他人遇到相关的问题，所以来知乎寻求一下大家的帮助，感谢！

查看全文

12G的已分好词的中文文本用tf

雷雷 2017-12-20 1684 次浏览

我尝试了拿jieba分词库里的提取关键词的方法，已经跑了24小时了，并没有出结果，希望大家给些建议，谢谢~

查看全文

本人研一，导师安排信息提取课题，拟研究相关算法作为毕业论文，如何入门？哪里的资料比较专业？

非白南 2017-11-20 1572 次浏览

基础薄弱，第一次接触信息提取领域，老师也建议了解自然语言处理领域。本人想尽快上手，在半年内为明年的毕业论文打好基础，求各路大神教我。

查看全文

1 … 4

帐户注册

登录

找回密码