基于概念信息语义相似度的智能问答系统
一、成果简介
文本语义相似度是指两个句子或文本片段之间的语义等价程度,其研究在自然语言处理的问答系统、机器翻译、信息抽取、自动摘要等相关领域中有着广泛的应用,具有重要的理论意义和应用价值。现有的文本语义相似度方法主要基于词表面特征,但由于词语间普遍存在概念上的关联,缺乏概念层面的精确计算导致这些方法的准确性提升困难,而实现全文本在概念层面的精确计算尚无有效模型。
项目团队依据单个名词的概念信息量为基础,分别提出了多种模型和方法实现文本在概念级别快速、精确地计算语义相似度:(1)提出一种基于概念信息量的文本语义相似度无监督基本模型;(2)提出一种基于概念信息增益的文本信息量计算方法;(3)提出一种融合信息权重的全文本信息量计算方法。实验结果表明,团队提出方法在SemEval 2013-2016 STS(文本语义相似度)数据集上均超过了当年最先进系统的总成绩,并且在SemEval 2017 STS国际测评中,本系统的总成绩在所有参赛团队中排名第二,其中在Track 1数据集上排名第一(共34个参赛团队提交81个系统)。相关论文被大会评选为“Best of SemEval 2017”。
二、应用领域
人工智能
三、市场前景
随着人工智能相关技术的发展,智能问答系统应用在许多行业和领域中都有迫切的需求。比如在电话咨询场景中,传统人工座席无法满足日益增加的客户咨询量;在政府业务公开场景中,智能机器人对用户的不准确答复会影响政府形象和公信力。目前业界的做法是人工设计问答系统或者对话系统,而不是使问答系统真正具有人类常识和世界知识,这种系统无法适应提问方法的改变或应用场景的转换。而概念信息方法以认知知识库为基础可以获得大量世界知识,比如概念之间的上下位关系。在特定领域的问答匹配多个测试数据集上的实验结果显示,相对于谷歌最新的深度计算模型BERT,概念信息语义相似度无监督模型已经比当今最优深度学习模型高出13%-15%。在问答系统上准确性的优势说明,概念信息语义相似度模型对智能问答系统具有明显的应用落地优势。
文本语义相似度在自然语言处理的问答系统、机器翻译、信息抽取、自动摘要等研究中有着广泛的应用,具有重要的理论意义和应用价值。随着人工智能相关技术的发展,智能问答系统应用在许多行业和领域中都有迫切的需求。在特定领域的问答匹配多个测试数据集上的实验结果显示,相对于谷歌最新发布的深度计算模型BERT(该模型已刷榜11项自然语言处理传统任务),概念信息语义相似度无监督模型已经比当今最优深度学习模型高出13%-15%。
四、知识产权
1、知识产权为北京理工大学单独持有;
2、本项目已授权专利1项。
五、合作方式
合作开发或其它方式。
六、对接方式
(1)合作意向方联系北理工技术转移中心;
(2)北理工技术转移中心沟通了解意向方情况;
(3)会同成果完成团队与意向方共同研讨合作方案。
北京理工大学技术转移中心
电话:010-68914920
邮箱:bitttc@bit.edu.cn