2021年4月22日上午,上海交通大学钱彦旻副教授受语音及语言信息处理国家工程实验室杜俊副教授的邀请,在科大西区科技实验西楼118会议室做了题为“Recent Advances in Robust Speaker Verification(鲁棒性说话人确认的最新进展)”的精彩报告。本次报告由杜俊副教授主持,计算机学院、信息学院等科大部分感兴趣的师生参加了报告会。
钱彦旻副教授从说话人确认的研究背景入手,首先介绍了说话人身份信息的常用表征向量以及评估指标,并列出了目前在真实场景下仍存在的一些挑战因素,如噪声干扰、信道适配、说话时长过短、场景不匹配、时变特性等等。
接着,钱教授介绍了其研究团队在信道及场景适配问题及多模态说话人确认问题上的研究进展,分享了研究团队最新的科研成果。
对于信道适配问题,钱教授提出将多任务学习与对抗式训练结合起来的方法,在低网络层应用多任务学习来辅助特征提取器学习到更通用的声学特征,在高网络层应用对抗学习来去掉信道信息。对于场景适配问题,钱教授提到,部分共享的网络结构能够实现在不影响源场景性能的前提下提高网络在目标场景下的性能,实现了对目标场景的自适应。对于多模态说话人确认问题,钱教授验证了多模态相对于单模态的优越性,介绍了基于不同种融合结构和多模态数据增广的设计方法,并指出基于注意力机制的多模态数据增广系统比传统的多模态系统更加鲁棒。
报告结束后,钱教授耐心地聆听与回答了在场师生的提问。本次报告会在探讨与掌声中圆满结束。
【个人简介】
上海交通大学计算机科学与工程系副教授,博士生导师,上海交大-思必驰联合实验室副主任。清华大学博士,英国剑桥大学工程系MIL机器智能实验室博士后,上海市青年英才扬帆计划获得者。现为IEEE、ISCA会员,同时也是国际开源项目Kaldi语音识别工具包的13位创始成员之一。担任InterSpeech, ISCSLP等国际会议的TPC委员;IEEE TASLP, IEEE JSTSP, IEEE SPL, ICASSP, InterSpeech等期刊和国际会议审稿人。有10余年从事智能语音及语言处理、人机交互、模式识别及机器学习的研究和产业化工作经验。在本领域的一流国际期刊和会议上发表学术论文140余篇,Google Scholar引用总数7600余次,申请60余项中美专利,合作撰写和翻译多本外文书籍。3次获得领域内国际权威期刊和会议的最优论文奖,包括国际语音通讯联盟(ISCA)和欧洲信号处理联盟(EURASIP)在2019年颁发的Speech Communication杂志五年最优论文奖,国际会议IEEE ASRU2019颁发的最优论文和IEEE ISCSLP2016颁发的最优学生论文奖。作为负责人和主要参与者多加了包括国家自然科学基金、国家重点研发计划、国家863、英国EPSRC等多个项目; 作为负责人或主要参与者参加国际评测并6次获奖,其中包括3次冠军。2020年和2014年,因在智能语音处理技术理论创新与产业化应用方面的贡献,获得中国人工智能学会颁发的“吴文俊人工智能科学技术奖”自然科学类一等奖和科技进步奖三等奖。目前的研究领域包括,语音识别,说话人和语种识别,语音抗噪与分离,语音情感感知,自然语音理解,深度学习建模,多媒体信号处理等。