发起人:雷雷 管理大师

回复 ( 5 )

  1. Nappy吴
    理由
    举报 取消

    再有这样的需求可以使用我们的工具啊,jieba那速度。。。要死人的!

    不需要分词,直接丢进软件就可以了!

    下载地址


  2. 亨行
    理由
    举报 取消

    试试并行运算?我也没想到好方法,另外我想问问你提取这么大文本是用来搞什么的?我处理的都是分好类的,都比较小。

  3. 南柯
    理由
    举报 取消

    对于这种数据量特别大的,建议先用小数据测试工具,比如结巴提取关键词的速度,然后估算整个文本所需时间,评估可行性再做。

  4. Yuan Xuan
    理由
    举报 取消

    经典回答应该是MapReduce,

    而tf-idf又是MR的经典用例之一。

    更具体的请查相关文档,

    希望有帮到你。

  5. 林无知
    理由
    举报 取消

    你的意思是用计算出每个词出现的次数和占当前文本的比重,然后怎么计算?

    问题没描述清楚没人回答的了

我来回答

Captcha 点击图片更换验证码