如何自动提取论文中的作者单位名称?

理由
举报 取消

比如说我有一系列研究者的工作单位信息:作者A:High Performance Network Laboratory, Institute of Acoustics, Chinese Academy of Sciences, Beijing, China 100190作者B:Mohammed V Agdal University, Rabat and High School of Technology, Sale作者C:Department of Computer Science, University of Waterloo, Waterloo, Ontario, Canada; University of Indonesia, Indonesia作者D:University of Ottawa;Department of Computer Sciences, University of North of Texas, Denton, TX 76203, U.S.A.如何提取出作者ABCD的单位信息,比如对A来说,得到 “Chinese Academy of Sciences”,对作者D来说,得到“University of Ottawa”和“University of North of Texas”。听说过地址分析和有限状态机,不知道能否解决这个问题。如果可以,请指出解决思路。

2017年8月6日 4 条回复 952 次浏览

发起人:张传亭 管理大师

数据挖掘的搬运工

回复 ( 4 )

  1. 李丕绩
    理由
    举报 取消

    工程上,结合context定义pattern用正则抽就行。

    如果research,那就考虑下sequence labeling类的模型?

  2. 诺兰朵
    理由
    举报 取消

    不好意思,我也不是研究这个的,只是在网上搜了下,好像有这种专利。

    以下为摘抄,非本人原创:

    摘 要 为了实现期刊论文中文DoI元数据的
    批量自动提取。提出了向排版模板中预置元数据
    标签的解决方案。以方正书版文件为例,阐述了
    通过“不排”命令预置XML标签的具体方法.给
    出了采用自编工具软件提取130I元数据和生成
    XML格式注册元数据文件的基本步骤。介绍了使
    用万方数据“中文DOI注册元数据转换与校验系
    统”完成元数据校验和网上提交的操作流程。
    关键词中文1301;元数据;自动提取;网上提交

  3. CITW CALLS
    理由
    举报 取消

    感谢邀请,不过,我还没有学这个,暂时不会啊。。。

我来回答

Captcha 点击图片更换验证码