语音情感计算及多模态交互研究团队荣获CCF A类国际顶级会议ICCV 2021大规模细粒度物体检索挑战赛亚军
发布时间:2021-10-25

2021年10月16日,CCF A类国际顶级会议-国际计算机视觉大会(以下简称ICCV 2021,图一)以“LargeFineFoodAI ”为主题的研讨会正式开幕,同时其主办的“大规模细粒度食品图像分析”挑战赛(Large-scale Fine-Grained Food Analysis Challenge)公布了竞赛结果并颁发了获奖证书。

该挑战赛一共分为大规模细粒度食品图像识别和大规模细粒度食品图像检索两大赛道。经过数个月的激烈角逐,由中国科学技术大学信息学院自动化系和语音及语言信息处理国家工程实验室语音情感计算及多模态交互研究室於俊老师指导的USTC-NELSLIP参赛团队(成员:於俊、谢国辰、常昊、张力文、蔡忠鹏、凌强、张中、余烨、苏雯、高放、双丰等)荣获大规模细粒度食品图像检索赛道的亚军(图二)。该团队成员来自中国科学技术大学、合肥湛达智能科技有限公司、合肥工业大学、浙江理工大学、广西大学。


1635129425420248.png

图一:IEEE/CVF ICCV 2021

1635129449563802.jpg

图二:获奖证书


ICCV,全称IEEE International Conference on Computer Vision(国际计算机视觉大会)由IEEE主办,在世界范围内每两年召开一次。其与计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV)并称计算机视觉方向的三大顶级会议。

近几年,计算机视觉的各个领域在各行各业都逐渐得到应用,食品分析作为一项精细的视觉分析任务,正成为营养分析、饮食管理和食品推荐等诸多健康应用的热点。它还可以支持基本和复杂的视觉和学习任务,如细粒度食品识别和检索等。“大规模细粒度食品图像分析”挑战赛检索赛道的任务是利用由美团提供的大规模食品数据集,实现对食品图像的检索。

在比赛中,比赛方案如图三所示,USTC-NELSLIP参赛团队基于数据集与任务的特点,首先选取了EfficientNet-B6, EfficientNet-B5, Swin Transformer三种模型,在其基础上利用五折交叉验证清洗数据,采用图像增强方法提高了模型的泛化性和鲁棒性,同时加入了DBA、QE、L2-Normalize等后处理技巧与方法,最后将基于三个模型采用不同训练方法获得的八个模型进行集成,得到最终的结果。

1635135072110811.png

图三:解决方案流程图


本次比赛吸引了国内外众多有实力的团队参与,包括清华大学、中国科技大学、南京理工大学、巴塞罗那大学、新加坡南洋理工大学;阿里巴巴、深兰科技、OPPO、欢聚时代等公司在内的143个国内外团队参加比赛。经过竞争十分激烈的筛选,最终USTC-NELSLIP参赛团队在检索赛道以mAP值82.199%的好成绩荣获亚军。