有没有能够获取任意两个词同时出现的概率的数据库? 举报 理由 举报 取消 类似我在百度上搜索这个:“有向无环图” “前额叶皮质”引号不能去掉,否则关键词会被拆分。只能搜到8个结果。这两个词同时出现的概率应该是相当低了。我想要大量调用这个功能,估计用百度调用次数多了肯定会被限制,有没有什么地方能够下载这种数据库或者无限调用这个东西?不需要非常全,只要能大幅度减少调用百度的次数就行了。 2018年1月28日 2 条回复 1197 次浏览 数据,数据挖掘,自然语言
回复 ( 2 )
爬些文章,分别统计每篇文章单个词的概率p,然后计算p_i*p_j,就得到一个两个词同时出现概率的近似。
如果要避免有的词统计不到,或者直接计算联合概率过去粗糙,可以用词向量去学习个神经网络,输入是v_i和v_j,输出是其联合概率。
自答,知乎首页看到个可能能用的。又试了一下,好像完全符合我的要求。下一步就是测试其有多大方了。过了一天感觉好像不太符合我的要求,以后再说吧。又看了一下好像完全可以,但是这是英文的啊,我想要中文的。
Linggle 10^12- Language Reference Search Engines
你写论文时发现了哪些神网站? – 毕业论文