分享
文本处理同义词替换中的多义词问题?
想对处理的文本中的同义词进行替换,拟采用的方案是,比如读入同义词列表{Ah14C02= 心肝 宝贝 心肝宝贝 宠儿 命根子 掌上明珠 命根 宝贝儿},然后扫描文本,将出现在这个列表中的所有词语都替换为第一个:心肝,或者前面的代码:Ah14C02。但在实际的操作中却遇到了问题,同一个词存在多义,比如对于前面的“宝贝”,还同时存在于列表{Ba08A01= 宝物 宝贝 宝 珍 琛 珍品 珍宝 至宝 无价宝 瑰}中,这时候如果文本中遇到了“宝贝”这个词就不知道应该替换为“心肝”还是“宝物”了。因为自己不是相关方向的,谷歌也没有找到其他人遇到相关的问题,所以来知乎寻求一下大家的帮助,感谢!
回复 ( 1 )
这是标准的语义消歧任务,每一个同义词集类似英语里的WordNet的synset。简单一点的方法就是对词提特征,比如前后的context, 词性什么的,然后用一个分类器就好了。