文本处理同义词替换中的多义词问题?

理由
举报 取消

想对处理的文本中的同义词进行替换,拟采用的方案是,比如读入同义词列表{Ah14C02= 心肝 宝贝 心肝宝贝 宠儿 命根子 掌上明珠 命根 宝贝儿},然后扫描文本,将出现在这个列表中的所有词语都替换为第一个:心肝,或者前面的代码:Ah14C02。但在实际的操作中却遇到了问题,同一个词存在多义,比如对于前面的“宝贝”,还同时存在于列表{Ba08A01= 宝物 宝贝 宝 珍 琛 珍品 珍宝 至宝 无价宝 瑰}中,这时候如果文本中遇到了“宝贝”这个词就不知道应该替换为“心肝”还是“宝物”了。因为自己不是相关方向的,谷歌也没有找到其他人遇到相关的问题,所以来知乎寻求一下大家的帮助,感谢!

2017年12月21日 1 条回复 1247 次浏览

发起人:鱼小贱 初入职场

www.yuxiaojian.pw

回复 ( 1 )

  1. 龚禹pangolulu
    理由
    举报 取消

    这是标准的语义消歧任务,每一个同义词集类似英语里的WordNet的synset。简单一点的方法就是对词提特征,比如前后的context, 词性什么的,然后用一个分类器就好了。

我来回答

Captcha 点击图片更换验证码