python中文预处理?

理由
举报 取消

NLP刚入门,想利用一些文本文件和python工具做一些文本分类的问题。查资料查到利用中文和英文的预处理有很多不同:中文处理具体是怎样的呢?(1)分词:jieba分词 or nlpir?(2)停用词:去停用词使用正则表达式?网上的停用词表是包括标点的,标点符号是否就不用再处理了?(3)上两步的顺序,先分词再停用词,还是先去停词再分词(4)词性标注有什么用?用于后续处理吗?(5)还有什么其他处理操作? (6)后续分类使用gensim、scikit-learn、nltk?刚入门,问题比较小白。。

2017年8月22日 2 条回复 840 次浏览

发起人:赵澈 初入职场

给岁月以生命。

回复 ( 2 )

  1. 石头三颗
    理由
    举报 取消

    楼上总结得挺好的,目前我用的是jieba

  2. bulu dog
    理由
    举报 取消

    (1)分词:jieba分词 or nlpir?

    都可以,分词一般看字典多一点,目前本人使用jieba

    (2)停用词:去停用词使用正则表达式?网上的停用词表是包括标点的,标点符号是否就不用再处理了?

    停用词有停用词表,可以自己找。停用词和标点一般不再处理,因为对语义和文章的表征没用

    (3)上两步的顺序,先分词再停用词,还是先去停词再分词

    先分词

    (4)词性标注有什么用?用于后续处理吗?

    没有需求,一般不用词性。一些特殊的任务是需要词性信息的

    (5)还有什么其他处理操作?

    预处理基本差不多了吧,并没有什么特别的步骤。一切看你面对的任务,有需要还有依存分析,实体识别等等

    (6)后续分类使用gensim、scikit-learn、nltk?

    文本分类这三个都可以,gensim是topic相关的库还带有word2vec和doc2vec,scikit-learn中的CountVectorizer和TfidfVectorizer(不记得怎么拼了)实现比较简单,nltk倒是应有尽有。

    但是严格意义上说三者都可以用在分类任务

我来回答

Captcha 点击图片更换验证码