2022年7月1日至2022年10月31日,由计算机视觉三大顶会之一ECCV(European Conference on Computer Vision)主办的第四届“感知、理解和合成人类”研讨会(The 4th Workshop on Sensing, Understanding and Synthesizing Humans)举行了系列挑战赛,并于近日公布了排名结果。ECCV是计算机视觉的国际顶级会议,与CVPR(IEEE/CVF Conference on Computer Vision and Pattern Recognition)和ICCV(IEEE/CVF International Conference on Computer Vision)共称为计算机视觉三大顶会,其影响力在推动计算机视觉发展过程中举足轻重。该会议吸引了全球海内外众多优秀研究者与研究机构参与进来,出产世界最顶尖的优秀视觉科研成果,探讨前沿的视觉技术成果,为学术界与科技界提供相互交流的平台。The ECCV 2022 Workshop on Sensing, Understanding and Synthesizing Humans (https://sense-human.github.io/)计算机视觉在人类感知、理解和生成上已经取得了长足的进步。在此基础上,本次研讨会进一步指出了未来本领域的三个重要方向:1.我们应该从整体出发,用一个统一的框架来处理人类感知、理解和生成问题。并且来探索由这些不同子领域相互交叉而产生的前沿问题。2.工业界和学术界应该多交流彼此的经验,教训以及对这个领域的见解。3.这些主题为“以人为本的人工智能”奠定了基础,并且会在即将到来的智能健康时代扮演不可或缺的作用。为了更好地促进预训练的发展,新加坡南洋理工大学S-Lab和商汤公司构建了用于评测预训练模型鲁棒性的基线,并举办首届OmniBenchmark Challenge,以供研究人员测试和检验更优更鲁棒的预训练模型。Omni-Realm Benchmark(OmniBenchmark)是一个多样化(21个语义领域数据集)和简洁(领域数据集没有概念重叠)的基准,用于评估跨语义超级概念/领域的预训练模型泛化,例如跨哺乳动物到飞机。本次研讨会关于OmniBenchmark挑战赛设置了两大赛道。具体包括:赛道1(OmniBenchmark Challenge ECCV@2022:ImageNet1k-Pretrain Track): 该赛道要求使用ImageNet1k数据集进行模型预训练,来研究对下游分类任务的泛化能力;赛道2(OmniBenchmark Challenge ECCV@2022:Open-Pretrain Track): 该赛道为开放预训练的方式,可以使用OmniBenchmark以外的任何数据集进行模型预训练,来研究对下游分类任务的泛化能力。经过2个多月的激烈角逐,由语音及语言信息处理国家工程研究中心-语音情感计算及多模态研究室於俊老师带领的中国科大参赛团队(以下简称USTC-IAT-United团队)取得了优异成绩,在两个赛道中均斩获冠军。团队工作由於俊老师指导研究生蔡忠鹏、杜深深、李仁达、赵功鹏、张冰源、卢青等人完成。(赛道网址:https://codalab.lisn.upsaclay.fr/competitions/6043,https://codalab.lisn.upsaclay.fr/competitions/6045)OmniBenchmark Challenge ECCV@2022:ImageNet1k-Pretrain Track获奖证书
OmniBenchmark Challenge ECCV@2022:Open-Pretrain Track获奖证书USTC-IAT-United团队针对该竞赛的特点提出了特色解决方案。团队考虑到对抗样本有利于提高网络模型对图像识别的能力,采用AdvProp+AutoAugment算法在ImageNet1K数据集上进行预训练的方法,显著增强了预训练模型的表征能力。这种算法将对抗样例作为多余的样本来进行处理,以防止过拟合。该算法的关键是对对抗样本采用独立且辅助性的BN,因为相对于普通样本来说,对抗样本具有不同的潜在分布。同时AutoAugment算法为使用NAS搜索出来的高性能数据增强算法,对预训练的效果也有很好的增强作用。实验证明,这套方案非常有效,在两个赛道上均取得了第一名的效果。本次大赛吸引了全球包括中国科学技术大学、新加坡南洋理工大学等众多国内外高校、科研院所参与。上述工作得到了国家自然科学基金面上项目和联合基金项目、安徽省重点研发计划、中国科学技术大学探索类基金、中国人工智能学会华为学术奖励基金等项目的支持。