在网上爬取新闻,划分单词以后,根据频率选取热词,如何智能的过滤如中国,视屏,上海等词?

理由
举报 取消
2017年7月12日 2 条回复 568 次浏览

回复 ( 2 )

  1. 林林林
    理由
    举报 取消

    可以借鉴tf-idf思想。简单的说,就是把一些在每个文章上都出现过很多次的词的权重调(比如上海,中国就会在多篇文章里重复出现),同时把这篇文章出现多次词权重调高

  2. 匿名用户
    理由
    举报 取消

    可以使用暴力查询加倒数优化法

我来回答

Captcha 点击图片更换验证码