数据挖掘与文本挖掘的关系是什么?有什么区别?包含、有交集还是完全不同的领域?
门外新人一枚,连入门都算不上。求问数据挖掘与文本挖掘的关系,两者哪个是主流大势呢?
查看全文python中文预处理?
NLP刚入门,想利用一些文本文件和python工具做一些文本分类的问题。查资料查到利用中文和英文的预处理有很多不同:中文处理具体是怎样的呢?(1)分词:jieba分词 or nlpir?(2)停用词:去停用词使用正则表达式?网上的停用词表是包括标点的,标点符号是否就不用再处理了?(3)上两步的顺序,先分词再停用词,还是先去停词再分词(4)词性标注有什么用?用于后续处理吗?(5)还有什么其他处理操作? (6)后续分类使用gensim、scikit-learn、nltk?刚入门,问题比较小白。。
查看全文怎样用R语言计算一组词的jaccard相似度?
刚开始用R处理文本挖掘方面的问题,想请教一下怎样用R算一组词的jaccard相似度。并且设置一个常数,根据相似度与这个常数的比较对词聚类,并用字符少的词语替换字符多的词语。谢谢。
查看全文如何看待「编诗姬」机器人写诗?
今天看到朋友圈分享的一个机器人自动作诗软件。可以填词作诗也可以随机生成。附上链接:帮你写诗的编诗姬你对这个机器人作诗软件怎么看?机器人创作是否会在未来取代人类创作?相比于人工作诗,机器人作诗的局限在哪里?有哪些算法实现一个作诗系统?需要考虑哪些特征?做一个写故事的机器人又有多难?
查看全文文本分析中的词性标注后,如何返回词性的名称?
我使用的ansj开源的java分词库,使用词性标注后,得到的都是标注符号,例如:n,v之类的,我如何获得对应的词性中文名词?比如名词、动词等等
查看全文