自然语言处理为什么要分词? 举报 理由 举报 取消 比较基础的问题,但是希望能够得到精炼的回答。 2017年8月6日 3 条回复 1271 次浏览 SEO,中文,分词,挖掘,搜索引擎优化,文本,自然语言
回复 ( 3 )
精炼回答:硬件、资源、成本、盈利
单字很多时候表达不了语义,词往往能表达。分词相当于预处理,能使后面和语义有关的分析更准确。
首先,分词是自然语言处理的基础。比如说对关键词提取,分本分类等都有帮助。
其次,有的文本挖掘任务是与分词相辅相成的。比如,新词发现。一个最简单的办法就是和词典对比,如果词典中没有这个词,就把该词定义为新词。另外,比较好的方法是分词与新词发现同时进行,用新词发现的结果来优化新词。
分词目前已经有很多开源工具可以使用,比如中科大的ICTCLAS.IKanalyzer.hanlp等等。很多分词原理是用的CRF,即条件随机场,通过对词语的位置标注和词性等特征来进行分词。