近日,人工智能领域顶级会议AAAI (AAAI Conference on Artificial Intelligence)2022年度的论文揭晓,来自西安电子科技大学通信工程学院的何刚老师团队所发表的题为“Transcoded Video Restoration by Temporal Spatial Auxiliary Network”的最新针对视频转码的修复处理算法研究成果被成功收录。何刚老师是通信工程学院图像传输与处理研究所(图像所)骨干成员,图像所隶属于ISN国家重点实验室,负责人为李云松教授。AAAI Conference on Artificial Intelligence是美国人工智能协会主办的年会,被列为人工智能领域的CCF A类顶级会议。今年会议共收到9251篇投稿,创下AAAI投稿量的历史新高,其中9020篇投稿进入了评审环节。最终经过大会讨论决定共接收1349篇论文,录取率为15.0%,创下历史新低。
图1 AAAI近6年录取率变化图
视频技术在我们生产生活中的作用日益凸显,特别是在新冠疫情来临之后,视频服务在助力复工复产方面发挥了重要的作用,短视频、云直播、远程教育等新模式新业态快速涌现。据统计,流媒体视频在全网数据流量占比已超过70%。同时,围绕流媒体视频展开的一系列工作,如视频压缩编解码、虚拟现实、增强现实以及元宇宙等,是当前研究热点。
结合深度学习技术,何刚老师团队首次针对实际工程应用中视频经历多次压缩编码(即转码)而非独立压缩编码,开创性地开发相应的视频修复去伪影增强算法,并取得了显著成果。图2为转码视频压缩去伪影增强的一个应用场景示例,日常生活观看的视频大多数都在录制与传输过程中经历了多次编码压缩。通常情况下使用移动手机录制的视频通过互联网分享给其他人时视频至少会经过两次压缩。首先,在手机端录制的视频会直接经由手机内置的编解码器完成硬件编码(也称初始编码),此时的视频码率较高,视频内容清晰,压缩伪影不明显。然后用户将其上传到如YouTube、快手、抖音等视频服务提供商时,这些厂商将对视频进行不同码率的转码以适应不同的应用场景,而后分发给其他用户。最终在其他用户端显示播放的该视频是经过编码和转码后的版本,此时的视频往往失真明显,压缩伪影明显,尤其是在带宽有限的情况下更加突出,会不同程度地影响用户的观看体验。
图2转码视频压缩去伪影修复的应用场景示例
(a)工作流程比较图 (b)主客观质量比较示例图
图3论文方案与先前单次编码压缩去伪影方法在转码压缩去伪影任务上的比较
考率到转码压缩视频中存在的伪影是多次编码失真的叠加,先前的处理方案主要针对单次压缩损伤的修复,如图3所示,当其应用于转码视频上效果大打折扣。为此,结合实际应用场景,该论文将深度学习与转码视频去伪影任务相结合,利用转码视频特性,将初始编码信息作为中间辅助监督标签,设计辅助监督和全局监督损失函数引导网络训练。同时,该论文结合视频的时空相关特性设计了包括时域可变形对齐模块(TDAM)、金字塔空域融合模块(PSFM)等在内的卷积神经网络架构,并协同辅助监督(ASAM)和全局监督(GSAM)训练以更好地提升转码视频的画面质量,对应网络架构图见图4。因此,通过论文方法,可以在不增加视频码率的情况下大幅提高视频图像质量。表1以图像客观评价指标PSNR/SSIM增益作为客观评价指标衡量该论文方法较先前方法而言的增强性能提升程度。从
图4时空辅助转码压缩去伪影修复网络架构图
表中可以看出,该论文提出的方法在测试视频序列的平均PSNR增益为0.782dB,相比于先前方法STDF而言提升增幅达52.4%。同时,图5为与先前单次编码修复增强方法的主观效果对比图,可以看出该论文方案主观质量大幅提升,如转码损伤的斑马线被修复还原,行人周围的伪影得到大面积移除,篮球的边缘纹理修复重现等。因此,本论文无论从客观指标和主观效果上都极大程度地修复提升了视频转码压缩后的视觉质量。
表1 论文方案与先前方法在转码去伪影修复任务上的PSNR/SSIM增益指标比较
图5论文方案与先前方法在转码去伪影修复任务上的修复效果对比图
何刚老师及其科研团队一直致力于基于深度学习的图像视频增强处理及编解码压缩等学术研究技术,至今已发表相关论文50多篇和相关专利。同时,其团队和工业界应用合作紧密,在2019年合作完成的人工智能AI图像修复合作技术(去噪、去雾、去模糊、对比度增强)获得CCTV13《朝日新闻》采访报道,其承担超高清编解码和视频处理系统应用国家海深探测项目获2020年《陕西新闻》采访报道。
论文主要作者:
何刚,副教授,现工作于西安电子科技大学通信工程学院图像传输与处理研究所(图像所)。图像所是ISN国家重点实验室成员单位,负责人为李云松教授。本科毕业于西安交通大学,博士毕业于日本早稻田大学,师从后藤敏教授(IEEE Life Fellow),研究方向是基于人工智能高效视频编码算法,基于深度学习卷积网络和对抗技术图像视频增强处理等研究,至今已发表SCI论文及国际会议50余篇。
徐莉,博士研究生,西安电子科技大学通信工程学院图像传输与处理研究所(图像所)成员。图像所是ISN国家重点实验室成员单位,负责人为李云松教授。本科毕业于重庆大学,目前在西安电子科技大学攻读博士学位,博士期间的指导老师为雷杰老师和何刚老师,研究方向为深度学习在图像视频压缩与增强领域上的应用,目前已在AAAI、T-CSVT等国际顶级会议期刊发表多篇论文。
相关链接:
会议链接:https://aaai.org/Conferences/AAAI-22/
论文链接:https://arxiv.org/abs/2112.07948