多模态研究团队荣获国际顶级会议CVPR 2022“时序数据中的鲁棒性”系列竞赛4项冠军

发布时间：2022-06-08

2022年1月1日至2022年3月21日，CCF A类国际顶级会议-国际计算机视觉与模式识别大会(以下简称IEEE/CVF CVPR 2022，图1)主办的CVPR Workshop on Robustness in Sequential Data (ROSE)(以下简称ROSE 2022)举行了系列挑战赛，并于近日正式公布了排名结果。

图1 IEEE/CVF CVPR 2022

IEEE/CVF CVPR由电气与电子工程师协会(IEEE)和计算机视觉基金会(Computer Vision Foundation：CVF)共同主办，是计算机视觉和模式识别领域最重要和权威的国际顶级会议，根据最新的谷歌学术影响因子统计，IEEE/CVF CVPR在泛人工智能(AI)领域排名第一。

ROSE 2022的重点是开发能够减少训练集和真实世界测试场景之间性能差距的解决方案。这项挑战的目标是推广能够处理现实世界数据中观察到的各种类型的扰动和损坏的方法。这项任务将涉及对三个不同的数据集的动作识别，包括HMDB-51P、UCF-101P和Kinetics-400P。参赛者将在这三个数据集上开发强大的动作识别模型。这些模型将根据上述标准在扰动和损坏的样本上进行评估，目的是测试模型对各种自然、相机相关和压缩相关扰动和损坏的鲁棒性。

图2 Robustness in Sequential Data (ROSE 2022)

ROSE 2022(https://rosecvpr22.github.io/challenge.html)设置了三个数据集赛道，分别对应于HMDB-51P、UCF-101P和Kinetics-400P。该挑战赛将为每项数据集赛道单独设立获奖者，以及综合得分获奖者。经过近3个月的激烈角逐，由语音及语言信息处理国家研究中心多模态研究室於俊老师带领的中国科大参赛团队(以下简称USTC-IAT-United团队)，在全部赛道斩获了三个冠军以及竞赛总冠军的优异成绩(图3-5)。竞赛网址为https://codalab.lisn.upsaclay.fr/competitions/2618#results。团队工作由於俊老师指导研究生魏智鸿、靖默涵、刘泽鹏、齐晓滑、卢科达、张力文和常昊等人共同完成。

图3 CVPR 2022 ROSE Challenge - Track 1 (HMDB-51P数据集)

图4 CVPR 2022 ROSE Challenge - Track 2 (UCF-101P数据集)

图5 CVPR 2022 ROSE Challenge - Track 3 (Kinetics-400P数据集)

USTC-IAT-United团队在分析数据集特点和调研相关研究后，首先在模型选择上，选用TimeSformer模型，并通过实验证明了该模型的Divided Space-Time

Attentions 策略在抗干扰方面表现优异。其次针对数据集特点，在空间域上，模拟20余种视频空间破坏方法进行数据扩充；在时间域上，受到了目标检测的“多尺度”的启发，提出了Multi-Scale Sampling策略，极大地提高了模型在空间域和时间域上的鲁棒性。此外，为了保证模型泛化性，我们使用了“Trade”- 兼顾了准确度和鲁棒性的损失函数，使得干净样本与破坏样本在输入空间和输出空间上保持一致性。最终在HMDB-51P、UCF-101P和Kinetics-400P分别取得了98.71%，99.83，89.83%的优异精度。

本次比赛吸引了来自国内外的100余家著名互联网公司、高校、科研院所的参与。

上述竞赛得到了国家自然科学基金联合基金、安徽省重点研发计划、中国科大探索类基金、中国人工智能学会华为学术奖励基金等项目的支持。