python中文预处理？

理由

举报取消

NLP刚入门，想利用一些文本文件和python工具做一些文本分类的问题。查资料查到利用中文和英文的预处理有很多不同：中文处理具体是怎样的呢？（1）分词：jieba分词 or nlpir？（2）停用词：去停用词使用正则表达式？网上的停用词表是包括标点的，标点符号是否就不用再处理了？（3）上两步的顺序，先分词再停用词，还是先去停词再分词（4）词性标注有什么用？用于后续处理吗？（5）还有什么其他处理操作？（6）后续分类使用gensim、scikit-learn、nltk？刚入门，问题比较小白。。

2017年8月22日 2 条回复 941 次浏览

Python,挖掘,文本,自然语言

回复 ( 2 )

石头三颗初入职场
0
举报回复
理由

举报取消

楼上总结得挺好的，目前我用的是jieba
bulu dog 初入职场
0
举报回复
理由

举报取消

（1）分词：jieba分词 or nlpir？

都可以，分词一般看字典多一点，目前本人使用jieba

（2）停用词：去停用词使用正则表达式？网上的停用词表是包括标点的，标点符号是否就不用再处理了？

停用词有停用词表，可以自己找。停用词和标点一般不再处理，因为对语义和文章的表征没用

（3）上两步的顺序，先分词再停用词，还是先去停词再分词

先分词

（4）词性标注有什么用？用于后续处理吗？

没有需求，一般不用词性。一些特殊的任务是需要词性信息的

（5）还有什么其他处理操作？

预处理基本差不多了吧，并没有什么特别的步骤。一切看你面对的任务，有需要还有依存分析，实体识别等等

（6）后续分类使用gensim、scikit-learn、nltk？

文本分类这三个都可以，gensim是topic相关的库还带有word2vec和doc2vec，scikit-learn中的CountVectorizer和TfidfVectorizer（不记得怎么拼了）实现比较简单，nltk倒是应有尽有。

但是严格意义上说三者都可以用在分类任务

找回密码

python中文预处理？

发起人：赵澈 初入职场

回复 ( 2 )

我来回答

帐户注册

登录

找回密码

python中文预处理？

发起人：赵澈 初入职场

回复 ( 2 )

我来回答

发起人：赵澈初入职场