12G的已分好词的中文文本用tf 举报 理由 举报 取消 我尝试了拿jieba分词库里的提取关键词的方法,已经跑了24小时了,并没有出结果,希望大家给些建议,谢谢~ 2017年12月20日 5 条回复 1452 次浏览 学习,数据挖掘,机器,自然语言
回复 ( 5 )
再有这样的需求可以使用我们的工具啊,jieba那速度。。。要死人的!
不需要分词,直接丢进软件就可以了!
下载地址
试试并行运算?我也没想到好方法,另外我想问问你提取这么大文本是用来搞什么的?我处理的都是分好类的,都比较小。
对于这种数据量特别大的,建议先用小数据测试工具,比如结巴提取关键词的速度,然后估算整个文本所需时间,评估可行性再做。
经典回答应该是MapReduce,
而tf-idf又是MR的经典用例之一。
更具体的请查相关文档,
希望有帮到你。
你的意思是用计算出每个词出现的次数和占当前文本的比重,然后怎么计算?
问题没描述清楚没人回答的了