NLP刚入门,想利用一些文本文件和python工具做一些文本分类的问题。查资料查到利用中文和英文的预处理有很多不同:中文处理具体是怎样的呢?(1)分词:jieba分词 or nlpir?(2)停用词:去停用词使用正则表达式?网上的停用词表是包括标点的,标点符号是否就不用再处理了?(3)上两步的顺序,先分词再停用词,还是先去停词再分词(4)词性标注有什么用?用于后续处理吗?(5)还有什么其他处理操作? (6)后续分类使用gensim、scikit-learn、nltk?刚入门,问题比较小白。。
查看全文如何自动提取论文中的作者单位名称?
比如说我有一系列研究者的工作单位信息:作者A:High Performance Network Laboratory, Institute of Acoustics, Chinese Academy of Sciences, Beijing, China 100190作者B:Mohammed V Agdal University, Rabat and High School of Technology, Sale作者C:Department of Computer Science, University of Waterloo, Waterloo, Ontario, Canada; University of Indonesia, […]
查看全文如何看待「编诗姬」机器人写诗?
今天看到朋友圈分享的一个机器人自动作诗软件。可以填词作诗也可以随机生成。附上链接:帮你写诗的编诗姬你对这个机器人作诗软件怎么看?机器人创作是否会在未来取代人类创作?相比于人工作诗,机器人作诗的局限在哪里?有哪些算法实现一个作诗系统?需要考虑哪些特征?做一个写故事的机器人又有多难?
查看全文参加SemEval,要怎么入手啊?
我今年大四,加入实验室做毕设,毕设的题目大致就是产品评论挖掘。前些天导师告诉我去参加SemEval其中一个子任务——ABSA。我有些机器学习的基础,但是NLP之前没有接触过。现在在读前年的比赛论文,虽然读的懂,但是自己做还是没有清晰的思路。请问我要先学习哪些知识,或者大牛们有哪些书建议看?我觉着自己的问题就是在于,看得懂别人的方法,没有自己的思路,思维完全被看过的论文禁锢了。我应该怎样发现新思路呢?
查看全文表征学习Representation Learning?
Representation Learning 应该准确翻译成什么?表征学习?来自大神Yoshua Bengio的一篇总结性的文章《Representation Learning:A Review and New Perspectives》,这个方向风向如何?
查看全文