研究院动态

当前位置: 首页 - 学术研究 - 研究院动态 - 正文


米成刚:Loanword identification based on web resources: A case study on wikipedia

2023年04月04日 点击:[]

    近日,我院米成刚博士在《Computer Speech & Language2023年第81卷上发表题为“Loanword identification based on web resources: A case study on wikipedia”的学术论文。

 目前,外来词识别模型主要依赖于手工标注的小规模数据进行训练。然而,受限于数据规模,现有的深度学习方法并不能取得理想的识别效果。虽然也有相关工作研究外来词识别的数据增广,但该类工作主要集中在同义词替换、复述生成等方面,产生的数据中外来词的种类并未有明显增加。本论文提出一种基于Wikipedia的外来词识别数据增广策略:首先,将不同语种Wikipedia页面中包含的链接及当前页面的语言作为重要线索,进行篇章级可比语料构建;其次,基于可比语料及小规模双语词典无监督地训练机器翻译模型,并生成伪标记数据;第三,基于上述数据并融合词汇相似度、词对齐及语义相似度等特征构建外来词识别模型。多个借入语言(receipt language)上的实验结果表明,本论文提出的框架优于现有的外来词识别系统。

 《Computer Speech & Language》是SCIE检索期刊,人工智能领域权威国际期刊,中国计算机学会推荐期刊(CCF C)。此项工作得到了国家自然科学基金项目(No.61906158)资金支持。

 论文链接:https://www.sciencedirect.com/science/article/pii/S0885230823000360




上一条:我院课题获批2023年度国际传播能力建设重点研究项目立项

下一条:米成刚:Improving the Robustness of Loanword Identification in Social Media Texts

关闭