继2020年在国际声学场景和事件检测及分类挑战赛(简称:DCASE)中获得声音事件定位与检测任务冠军之后,2022年语音及语言信息处理国家工程研究中心杜俊副教授团队联合科大讯飞AI研究院(简称“NERCSLIP团队”)再次夺冠。
另外,NERCSLIP团队还联合了国防科技大学首次参加小样本动物声音事件检测赛道,并以大幅领先优势夺得冠军。DCASE是目前声音事件领域最权威的竞赛,自2013年组织发起以来,已举办了八届。本届DCASE2022挑战赛设置了低复杂度声学场景分类、异常音检测、声音事件定位与检测、家庭声音事件检测、小样本动物声音事件检测和自动音频描述6个任务,吸引了全球135支队伍进行角逐。
梅开二度,从仿真到真实场景再次夺冠
本次声音事件定位与检测任务,与以往最大的不同在于测试数据在真实空间声音场景中录制,这就要求模型对不可见的真实场景要具有鲁棒性。模型与人不同,人闭上眼睛感受周边的声音,能够很准确地判断声音的来源,但是目前模型无法达到人类视、听觉的高度,如何使模型能够像人耳一样准确判断声音的类别和位置,即是声音事件定位和检测的目标。针对此次比赛,联合团队提出了两个有效的技术方法来解决真实场景下声音事件的定位和检测任务:首先根据麦克风阵列的对称特性提出使用音频通道交换的数据增强方法显著增加了空间方位信息的多样性,提高模型对声音事件空间位置的鲁棒性;其次使用能够对长短时上下文信息同时建模的Conformer结构对每一帧声音事件进行更精细化学习,有效提高了声音事件定位和检测的准确率。
Task 3任务NERCSLIP联合团队对声音事件的检测结果
最终联合团队在检测错误率、检测F-score、定位错误率、定位召回率四项指标中全部获得最佳成绩,夺得冠军!
NERCSLIP联合团队在Task3任务中夺冠
鸾歌凤吹,看机器如何解析动物交响乐如果把蜜蜂的嗡嗡声、蝉鸣声、各种鸟鸣声等动物的声音混合在一起,这个“交响乐”不知道有没有人愿意听?而此次DCASE2022挑战赛小样本动物声音事件检测赛道就是以这种形式呈现。在给定一长段音频以及目标声音前5个片段时间信息的条件下,从这段音频剩余的部分查找出所有目标声音的起始及结束时间。目标声音均为动物发出的声音,例如美洲麻雀、北美红雀等。
Task5小样本动物声音事件检测任务说明
此项比赛有两个难点:一、测试集与训练集关联度低,采集场地、设备、动物类别等均无重合,训练数据的动物叫声类别很少,动物叫声差异较大,很难完全依赖训练集进行目标声音检测;二、测试音频干扰大,不但存在其他类别的动物叫声,还存在重叠音现象,同时给定的目标音频非常短,这极大增加了比赛难度。在有监督方案中,区别于该类任务中普遍使用的段级别表征学习,联合团队提出帧级表征学习方案来解决不同动物叫声时长上的差异。引入半监督方案是为了尽可能充分的利用少量标注信息,团队创新性设计了基于目标先验的事件滤波任务,该任务可以驱动模型去学习不同事件在时频域上的特性,提升自适应能力。最终结合多项技术打造的小样本动物声音事件检测系统在测试集上F-score得分达到60.2%,以超越第二名绝对值12%的大幅优势获得冠军!
NERCSLIP-国防科技大学联合团队在Task5任务中夺冠