2021年06月08日,CCF A类国际顶级会议-国际计算机视觉与模式识别大会(以下简称IEEE/CVF CVPR 2021,图1)主办的图文识别与推理-商品价格预测挑战赛(以下称“RetailVision Product Pricing in the Wild Challenge”)公布了竞赛结果并且颁发了获奖证书。
经过近3个月的激烈角逐,由语音及语言信息处理国家工程实验室语音情感计算及多模态交互研究室和中国科学技术大学信息学院自动化系於俊老师指导的USTC-NELSLIP参赛团队(成员:於俊、张力文、崔泽宇、谢皓年、张中、余烨、苏雯、高放、双丰等)荣获冠军(图2)。该团队成员来自中国科学技术大学、合肥湛达智能科技有限公司、合肥工业大学、浙江理工大学、广西大学。值得注意的是,该团队也曾于2020年参与此项挑战赛的前身“IEEE/CVF CVPR 2020超大规模商品图像检测挑战赛”,并也最终获得了冠军。
图1 IEEE/CVF CVPR 2021。
图2 获奖证书。
IEEE/CVF CVPR 由电气与电子工程师协会(IEEE)和计算机视觉基金会(Computer Vision Foundation:CVF)共同主办,是计算机视觉和模式识别领域最重要和权威的国际顶级会议(网址:http://cvpr2021.thecvf.com/),根据最新的谷歌学术影响因子统计,IEEE/CVF CVPR在泛人工智能(AI)领域排名第一。
计算机视觉和机器学习的快速发展对零售业造成了巨大的冲击,除了带来在线购物的兴起,传统实体店也在尝试采用与人工智能相关的技术解决方案。针对这一现实场景,在IEEE/CVF CVPR 2021上举办的图文识别与推理-商品价格预测挑战赛“RetailVision Product Pricing in the Wild Challenge”(网址:https://retailvisionworkshop.github.io/pricing_challenge_2021/)收集了来自世界各地的数千家超市,包括美国、欧洲和东亚门店的海量货架图片。其中每张图片平均包含数百个密集的商品。此外,竞赛数据集中图片的质量、拍摄角度以及光照条件是十分不一致的,这也加大了竞赛的难度。针对上述严峻挑战所带来的全新任务,该挑战赛要求参赛者提出一种通过高精度地检测与识别商品所在货架上的价格标签来可靠地预测商品价格的鲁棒算法。
图3 解决方案流程图。
在比赛中,USTC-NELSLIP参赛团队首先分析了数据集的特点,发现数据集中商品均有对应的价格标签,且商品价格可以通过对价格标签进行文本识别来获得。鉴于此,我们首先设计优良的目标检测算法(Cascade R-CNN+ResNeX+PAFPN等)来找出图片中的价格标签,接着提出鲁棒的推理算法(基于检测Score+匹配置信度来生成决策策略)使得商品与价格标签建立一一对应的关系,然后通过对价格标签进行高精度的文本识别(Robust Scanner等)以获得最终的商品价格预测结果。其中,为了增加检测和识别的精度,我们对图像的尺寸进行了调整并且同时加入了数据增强等技术。USTC-NELSLIP参赛团队所提出的解决方案总体流程如图3所示。
本次竞赛吸引了包括Google研究院、FaceBook研究院、中国科学技术大学等国内外著名研究机构在内的众多队伍参与,经过竞争十分激烈的初赛筛选,最终在决赛中,USTC-NELSLIP参赛团队荣获了冠军(图4)。
图4 图文识别与推理-商品价格预测结果展示。
本次竞赛得到了国家自然科学基金联合基金、中国科学技术大学探索类基金等项目的支持。