分享
如何自动提取论文中的作者单位名称?
比如说我有一系列研究者的工作单位信息:作者A:High Performance Network Laboratory, Institute of Acoustics, Chinese Academy of Sciences, Beijing, China 100190作者B:Mohammed V Agdal University, Rabat and High School of Technology, Sale作者C:Department of Computer Science, University of Waterloo, Waterloo, Ontario, Canada; University of Indonesia, Indonesia作者D:University of Ottawa;Department of Computer Sciences, University of North of Texas, Denton, TX 76203, U.S.A.如何提取出作者ABCD的单位信息,比如对A来说,得到 “Chinese Academy of Sciences”,对作者D来说,得到“University of Ottawa”和“University of North of Texas”。听说过地址分析和有限状态机,不知道能否解决这个问题。如果可以,请指出解决思路。
回复 ( 4 )
工程上,结合context定义pattern用正则抽就行。
如果research,那就考虑下sequence labeling类的模型?
简单嘛,hmm
不好意思,我也不是研究这个的,只是在网上搜了下,好像有这种专利。
以下为摘抄,非本人原创:
摘 要 为了实现期刊论文中文DoI元数据的
批量自动提取。提出了向排版模板中预置元数据
标签的解决方案。以方正书版文件为例,阐述了
通过“不排”命令预置XML标签的具体方法.给
出了采用自编工具软件提取130I元数据和生成
XML格式注册元数据文件的基本步骤。介绍了使
用万方数据“中文DOI注册元数据转换与校验系
统”完成元数据校验和网上提交的操作流程。
关键词中文1301;元数据;自动提取;网上提交
感谢邀请,不过,我还没有学这个,暂时不会啊。。。