2024年11月08日
声音是智能设备感知外界的关键媒介之一,正确识别声音所处的环境对于提升智能终端、机器人及自动驾驶等领域的安全性和优化用户体验很有帮助。例如,助听器通过识别佩戴者所处的环境,能够自动调整降噪和增强声音;自动驾驶车辆通过“聆听”周围环境的声音,可以辅助系统做出更准确的驾驶决策,提高行车安全。
然而,现实世界中的声音环境复杂多变,多种声音往往交织在一起,在传播过程中也会因环境和采集设备的不同而产生变化和失真。因此,在真实环境中稳定且高效地识别声音发生的场景仍是难题。
在今年举办的“国际声学场景和事件检测及分类挑战赛”(Detection and Classification of Acoustic Scenes and Events,以下简称“DCASE挑战赛”)上,西交利物浦大学和南京邮电大学的学者组成的联队针对这一难题展开了研究,他们设计了一款声学场景分类系统,于近日获得了声学场景分类赛道的评委奖(Judges’ Award)。
西浦-南邮联队由西浦智能工程学院博士生蔡毅强、通信工程专业大四学生林珉瑜,以及西浦智能科学系的李圣辰博士和南京邮电大学的邵曦教授两位指导老师组成。
(图片说明:左为李圣辰博士,右为蔡毅强。两人在“DCASE挑战赛”颁奖现场合影)
据项目负责人蔡毅强介绍,此次比赛要求参赛队伍设计一款适用于小型嵌入式设备的声学场景分类系统,它需要监测、识别和分析听到的各种声音,并根据音频特征自动区分出声源所处的不同的场景,如街道、公园、机场、地铁等。
蔡毅强表示:“赛题有两个难点,一个是该分类系统需要被部署到耳机、麦克风、助听器等小型设备中,这些设备的内存和能耗有限,因此算法不能太大、太复杂。”
“另一个难点则在于大赛对系统训练方式提出了的新要求。目前,该类系统大多是基于深度学习模型的架构,训练过程中需要大量的人工标签数据来告诉计算机某个声音属于什么类别,再让它进行学习,这种方式成本很高。所以,大赛要求所有参赛队伍只能利用有限的标签数据进行训练,以减少人力,提高算法训练效率。”
针对这两个难点,团队使用了自监督学习方法来训练系统,他们需要设计有效的自监督任务,让模型能够从音频数据中自动学习到有用的特征。
“这种方法在音频领域的应用还相对较少,因为音频数据会随时间变化,具有连续性和时序性,且包含多种环境声和噪音信息,这增加了自监督学习任务设计的复杂性。”蔡毅强介绍道。
(图片说明:蔡毅强在办公室进行分类系统设计)
“我们使用了多个数据集,用大量不同的音频预训练了一个音频大模型,再在大赛提供的数据集上进行微调,提升系统在大赛提供的音频数据中进行场景分类的准确度。”
“此时,虽然系统已经可以进行场景分类,但由于较为复杂,并不适合部署到小型设备上。所以我们创新地引入了‘知识蒸馏’这样一种模型压缩的方法,让这个大模型将其学到的知识转移到一个低复杂度的模型中,在保证分类准确度的同时适配于小型设备。”
指导老师李圣辰博士表示:“主办方根据各个队伍提交系统的准确率进行排名,同时综合考虑创新度以及代码质量等因素评选出唯一的评委奖。我们团队的主要创新点在于自监督学习方法的创新应用,让系统无需人工提取特征,即可输出声音场景的分类结果。”
(图片说明:大赛颁奖后主办方与参赛选手合影。)
在西浦读博之前,蔡毅强是西浦智能工程学院金融计算专业的硕士毕业生,那时他就曾参与过几次DCASE挑战赛。虽然他的专业背景与音频领域并不紧密相关,但在参赛过程中,蔡毅强对音频分类产生了浓厚的兴趣,因此他选择在博士阶段继续深入研究这一领域。
蔡毅强表示:“参加DCASE挑战赛让我有机会不断学习新知识、练习代码、管理团队,之前几次参赛经历也引导我走上了科研之路。通过比赛项目,我可以探索未知的难题并尝试提出解决方案,并在实践中不断验证与优化我的思路,对于独立思考与批判性思维也是一种提高;此外,与来自全世界的学者进行沟通和交流拓宽了我的国际视野,也让我深刻体会到了科学研究的无国界魅力。”
据了解,DCASE挑战赛是音频信号处理领域的国际顶级赛事,旨在推动音频信号处理和机器学习交叉学科研究。今年共有十七支队伍参赛,他们分别来自清华大学、上海交通大学、西北工业大学、南方科技大学等国内高校,以及德国、法国、新加坡、澳大利亚等地的国际名校。
(记者:金画恬 编辑:胡秋辰)
2024年11月08日