python中文预处理? 举报 理由 举报 取消 NLP刚入门,想利用一些文本文件和python工具做一些文本分类的问题。查资料查到利用中文和英文的预处理有很多不同:中文处理具体是怎样的呢?(1)分词:jieba分词 or nlpir?(2)停用词:去停用词使用正则表达式?网上的停用词表是包括标点的,标点符号是否就不用再处理了?(3)上两步的顺序,先分词再停用词,还是先去停词再分词(4)词性标注有什么用?用于后续处理吗?(5)还有什么其他处理操作? (6)后续分类使用gensim、scikit-learn、nltk?刚入门,问题比较小白。。 2017年8月22日 2 条回复 848 次浏览 Python,挖掘,文本,自然语言
回复 ( 2 )
楼上总结得挺好的,目前我用的是jieba
(1)分词:jieba分词 or nlpir?
都可以,分词一般看字典多一点,目前本人使用jieba
(2)停用词:去停用词使用正则表达式?网上的停用词表是包括标点的,标点符号是否就不用再处理了?
停用词有停用词表,可以自己找。停用词和标点一般不再处理,因为对语义和文章的表征没用
(3)上两步的顺序,先分词再停用词,还是先去停词再分词
先分词
(4)词性标注有什么用?用于后续处理吗?
没有需求,一般不用词性。一些特殊的任务是需要词性信息的
(5)还有什么其他处理操作?
预处理基本差不多了吧,并没有什么特别的步骤。一切看你面对的任务,有需要还有依存分析,实体识别等等
(6)后续分类使用gensim、scikit-learn、nltk?
文本分类这三个都可以,gensim是topic相关的库还带有word2vec和doc2vec,scikit-learn中的CountVectorizer和TfidfVectorizer(不记得怎么拼了)实现比较简单,nltk倒是应有尽有。
但是严格意义上说三者都可以用在分类任务