帐户注册

用户名*

邮箱*

密码*

确认密码*

头像

浏览

验证码* 点击图片更换验证码

登录

找回密码

忘记密码了？输入你的注册邮箱，并点击重置，稍后，你将会收到一封密码重置邮件。

12G的已分好词的中文文本用tf

举报

理由

举报取消

我尝试了拿jieba分词库里的提取关键词的方法，已经跑了24小时了，并没有出结果，希望大家给些建议，谢谢~

2017年12月20日 5 条回复 1588 次浏览

学习,数据挖掘,机器,自然语言

用户头像

发起人：雷雷 管理大师

回复 ( 5 )

Nappy吴管理大师
0
举报回复
理由

举报取消

再有这样的需求可以使用我们的工具啊，jieba那速度。。。要死人的！

不需要分词，直接丢进软件就可以了！

下载地址
亨行管理大师
0
举报回复
理由

举报取消

试试并行运算？我也没想到好方法，另外我想问问你提取这么大文本是用来搞什么的？我处理的都是分好类的，都比较小。
南柯初入职场
0
举报回复
理由

举报取消

对于这种数据量特别大的，建议先用小数据测试工具，比如结巴提取关键词的速度，然后估算整个文本所需时间，评估可行性再做。
Yuan Xuan 管理大师
0
举报回复
理由

举报取消

经典回答应该是MapReduce，

而tf-idf又是MR的经典用例之一。

更具体的请查相关文档，

希望有帮到你。
林无知管理大师
0
举报回复
理由

举报取消

你的意思是用计算出每个词出现的次数和占当前文本的比重，然后怎么计算？

问题没描述清楚没人回答的了

我来回答