帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

有没有能够获取任意两个词同时出现的概率的数据库?

类似我在百度上搜索这个:“有向无环图” “前额叶皮质”引号不能去掉,否则关键词会被拆分。只能搜到8个结果。这两个词同时出现的概率应该是相当低了。我想要大量调用这个功能,估计用百度调用次数多了肯定会被限制,有没有什么地方能够下载这种数据库或者无限调用这个东西?不需要非常全,只要能大幅度减少调用百度的次数就行了。

查看全文

word2vec Out of dictionary word!为什么呢?

在虚拟机win 8下运用Xshell连接到linux服务器运行这个word2vec,各项工作都已做好,为什么运行distance vectors.bin的时候出现了Out of dictionary word!。另外,我没用distance vectors.bin命令,直接用java代码来解决bin文件,结果eclipse崩了补充一句:语料是我自己分好词的UTF8文本,再者我在文本里直接写入几个词来运行都不行啊。请各位大神解答一下,多谢。

查看全文

数据挖掘入门基础知识疑惑?

本科阶段只学过C语言,外加一些线性代数,概率论的知识。现在硕士阶段进行数据挖掘、自然语言处理的学习中感觉到力不从心。不知道从何去入手,有一堆书也不知道先后顺序或者如何搭配。数据结构与算法、离散数学、数据库等内容也不清楚。总而言之就是相当之困惑,感觉前景一片黑暗,希望能有人帮我解下惑,不胜感激!!

查看全文

文本处理同义词替换中的多义词问题?

想对处理的文本中的同义词进行替换,拟采用的方案是,比如读入同义词列表{Ah14C02= 心肝 宝贝 心肝宝贝 宠儿 命根子 掌上明珠 命根 宝贝儿},然后扫描文本,将出现在这个列表中的所有词语都替换为第一个:心肝,或者前面的代码:Ah14C02。但在实际的操作中却遇到了问题,同一个词存在多义,比如对于前面的“宝贝”,还同时存在于列表{Ba08A01= 宝物 宝贝 宝 珍 琛 珍品 珍宝 至宝 无价宝 瑰}中,这时候如果文本中遇到了“宝贝”这个词就不知道应该替换为“心肝”还是“宝物”了。因为自己不是相关方向的,谷歌也没有找到其他人遇到相关的问题,所以来知乎寻求一下大家的帮助,感谢!

查看全文