菁菁校园   NAVIGATION

计算机与信息工程学院1项成果被CCF A类国际学术会议ACM Multimedia 2024录用

时间:2024-11-08 来源:计算机与信息工程学院(人工智能学院) 作者:朱艾春 摄影: 编辑:赵蕾 上传:

近日,国际顶级会议ACM Multimedia 2024在澳大利亚墨尔本举办,由朱艾春和董冠男老师指导的、计算机与信息工程学院2022级研究生张旭同学(第一作者)的长文“TVPR: Text-to-Video Person Retrieval and a New Benchmark”被大会录用。ACM Multimedia是计算机学科多媒体领域的顶级国际会议,也是中国计算机学会(CCF)推荐的该领域唯一的A类国际学术会议。ACM Multimedia 2024共有4385篇投稿进入审稿阶段,经过Rebuttal后,最终有1149篇论文(26.20%)被录用。

该论文提出了一个文本-视频行人检索(TVPR)新任务以及一个新数据集,并在此基础上提出了一种多元特征引导的片段化学习策略(Multielement Feature Guided Fragments Learning strategy,MFGF)。

该策略利用跨模态文本-视频表征来提供强大的文本-视觉和文本-运动匹配信息,以应对不确定的遮挡冲突和可变运动细节。该模型利用ViT和S3D联合提取行人视频的特征,增强视频特征中的动作信息,同时利用BERT编码文本描述,提取文本特征。

此外,MFGF为文本和视频特征协作学习建立了两个潜在的跨模态空间,进一步缩小文本和视频之间的跨模态语义鸿沟,提升模型对文本-视频跨模态信息中语义共性的理解,进而提高了检索精度。

作者:朱艾春(计算机与信息工程学院(人工智能学院));审核:高辉庆、万夕里

菁菁校园