米成刚：Loanword identification based on web resources: A case study on wikipedia

2023年04月04日点击：[]

近日，我院米成刚博士在《Computer Speech & Language》2023年第81卷上发表题为“Loanword identification based on web resources: A case study on wikipedia”的学术论文。

目前，外来词识别模型主要依赖于手工标注的小规模数据进行训练。然而，受限于数据规模，现有的深度学习方法并不能取得理想的识别效果。虽然也有相关工作研究外来词识别的数据增广，但该类工作主要集中在同义词替换、复述生成等方面，产生的数据中外来词的种类并未有明显增加。本论文提出一种基于Wikipedia的外来词识别数据增广策略：首先，将不同语种Wikipedia页面中包含的链接及当前页面的语言作为重要线索，进行篇章级可比语料构建；其次，基于可比语料及小规模双语词典无监督地训练机器翻译模型，并生成伪标记数据；第三，基于上述数据并融合词汇相似度、词对齐及语义相似度等特征构建外来词识别模型。多个借入语言（receipt language）上的实验结果表明，本论文提出的框架优于现有的外来词识别系统。

《Computer Speech & Language》是SCIE检索期刊，人工智能领域权威国际期刊，中国计算机学会推荐期刊（CCF C）。此项工作得到了国家自然科学基金项目（No.61906158）资金支持。

论文链接：https://www.sciencedirect.com/science/article/pii/S0885230823000360

上一条：我院课题获批2023年度国际传播能力建设重点研究项目立项

下一条：米成刚：Improving the Robustness of Loanword Identification in Social Media Texts

【关闭】

研究院动态

米成刚：Loanword identification based on web resources: A case study on wikipedia

联系我们