语音及语言信息处理国家工程研究中心

学术带头人

凌震华

电子工程与信息科学系教授，博士生导师。主要从事语音信号处理、语音合成、声音转换、自然语言处理等方向的研究。

2008年获得中国科学技术大学信号与信息处理专业博士学位。作为项目负责人和主要成员承担和参与多个国家自然科学基金、国家863计划、973预先研究计划、安徽省语音专项等科研项目。2007年10月至2008 年4 月，由Marie Curie Early Stage Training 项目支持，赴英国爱丁堡大学语音技术研究中心进行学术访问。2012年8月至2013年8月，访问美国华盛顿大学开展合作研究。在国内外学术期刊与会议上发表学术论文共100余篇。2010年获得IEEE信号处理学会最佳青年作者论文奖。2014-2017年担任IEEE/ACM Transactions on Audio, Speech, and Language Processing期刊副编辑。

戴礼荣

工学博士，教授，博士生导师。“语音与语言信息处理国家工程实验室”副主任及技术委员会委员，《数据采集与处理》编委，NCMMSC（全国人机语音通讯学术会议）常设机构委员会委员，中国电子学会信号处理分会第九届委员会委员。

主要从事语音信号与信息处理方向的教学与科研工作；目前的研究兴趣重点在基于深度学习的语音信号与信息处理，具体研究方向包括语音识别、说话人识别、语种识别、语音合成、语音增强等。

近年来主持或作为主要成员承担并完成了国家自然科学基金、国家863计划、973预先研究计划、国防预先研究计划、工信部电子基金、安徽省语音专项等20余项国家级或省部级课题。在IEEE、ICASSP、INTERSPEECH、等国内外期刊和语音领域顶级学术会议上发表学术论文100余篇。获得国家科技进步二等奖1次，安徽省级科技进步一等奖1次，省部级科技进步二等奖2次；获得安徽省自然科学优秀论文一等奖1次。

师资队伍

杜俊

电子工程与信息科学系教授，硕士生导师。主要从事语音信号处理和模式识别应用。

2009年-2013年就职于科大讯飞和微软亚洲研究院，期间参与开发了语音识别、手写识别和OCR多个产品。已发表论文100多篇，谷歌学术引用超过2300次，ESI高被引论文2篇，以唯一通讯作者发表的IEEE-ACM TASLP期刊论文获得2018年信号处理学会最佳论文奖。目前担任语音领域顶级期刊IEEE-ACM TASLP的编委，承担国家自然科学基金项目2项。带领团队获得2016年和2018年CHiME国际语音识别评测全部7个任务冠军、2018年ICPR多样式网络图像识别与检测比赛全部3项冠军、2018年ICPR遥感图像目标检测比赛全部2项冠军、2018年ICFHR东南亚棕榈叶手稿分析比赛2项冠军、2019年CROHME手写公式识别比赛2项冠军、2019年CVPR遥感图像目标检测1项冠军等。

郭武

电子工程与信息科学系副教授，硕士生导师。主要从事语音及语言信号处理，说话人识别，语音识别。

在国内外学术期刊与会议上发表学术论文超过60篇；受国家自然科学基金和国家863项目共同支持的研究成果“KD系列汉语文语转换系统”获 2002年国家科技进步二等奖。在NIST举办的2008年世界说话人识别大赛中，一举夺得综合成绩世界第一，又在此后连续三届比赛中获得优异成绩，一直名列前三；在NIST举办的2016年以语音识别为前端的关键词识别大赛中，获得第二名；指导的学生获得ISCSLP2010，NCMMSC2013最佳学生论文奖。

宋彦

电子工程与信息科学系副教授，硕士生导师。主要从事人工智能和语音信号智能处理研究。

承担了自然科学基金面上、安徽省自然科学基金重点等多项科研项目，包括“面向服务机器人的情感认知、表达及管理关键技术”（自然科学基金重点子课题）、“基于情境建模的高效视觉匹配方法及其应用研究” （自然科学基金面上）等；作为主要研究人员参与了“智能语音技术及产品研发与产业化--基于自然语音人机交互的信息搜索系统研发和产业化”（工信部），“面向高级人工智能领域的类人智能关键技术及系统研发”（安徽省科技厅）等；在语音信号处理领域的多项成果发表在TALSP，CSSP， ICASSP，INTERSPEECH, 等多个重要国际会议和期刊上。

张结

电子工程与信息科学系副教授、硕士生导师，主要面向智能家居、会议、车载、助听器等场景开展听觉言语增强与理解研究。

2020年1月获得荷兰代尔夫特理工大学(TU Delft)博士学位，2025年3月由特任副研究员转聘副教授。主持/参与中科院战略先导C类专项、安徽省重大科技攻关专项、国家自然科学基金、XXX国家实验室基金、中央高校基本科研业务经费、企业横向等项目9项。在国内外学术期刊和会议上发表学术论文80余篇，带领团队获得语音技术领域6个重要国际学术竞赛冠军，相关研究成果已应用于华为、讯飞等产品，2018年获得IEEE信号处理协会旗舰会议SAM最佳论文奖，担任20余个语音信号处理领域主流国际期刊和会议同行评审，目前担任语音技术领域顶刊IEEE Transactions on Audio, Speech and Language Processing (TASLPRO)副编辑。

陈丽萍

电子工程与信息科学系特任副研究员。研究方向为说话人识别、说话人安全保护、语音合成。

2016年获得中国科学技术大学博士学位，曾在新加坡通讯研究所和新加坡南洋理工大学访问学习，后加入微软（中国）语音组工作6年，参与多项重要研发项目。在语音信号处理领域的多项成果发表在 ICASSP，INTERSPEECH 等多个重要国际会议和期刊上。担任语音信号处理领域主流国际期刊和会议同行评审。

艾杨

电子工程与信息科学系特任副研究员。主要研究方向包括语音合成，语音增强等，共发表高水平学术论文二十余篇。

陈航

电子工程与信息科学系博士后研究员。研究方向为音视频语音增强、说话人日志和语音识别。

2024年获得中国科学技术大学博士学位，在语音和多媒体信号处理领域的多项成果发表在ICASSP、INTERSPEECH、TASLP、TMM等多个重要国际会议和期刊上。担任多语音和多媒体信号处理领域主流国际期刊和会议同行评审。

主要科研项目

NSFC-通用技术基础研究联合基金子课题（批准号：U1836219），复杂环境下语音数据的说话人识别及关键词检索，2019.1-2022.12，主持，在研
国家重点研发计划子课题，2017FC0822505，语音识别技术研究及开发，2018.1-2021.12，78万，主持，在研
国家重点研发计划子课题，2016YFB1001303，基于大数据的自然交互意图理解和智能输入，2016.7-2020.6，主持，在研
高技术项目，2016.12-2019.12，主持，在研
融合多通道语境信息的类人智能感知机制与方法，国家重点研发计划项目，项目编号：2017YFB1002202，2017-2021
语音及语言人工智能关键技术与云平台研发，安徽省科技重大专项项目，项目编号：15CZZ02997，2015-2017
智能家居人机交互关键技术及终端控制平台、产品研发，安徽省科技重大专项项目，项目编号：18030901016，2018-2020
国家基金，基于回归神经网络的语音分离关键问题研究，2017.01-2020.12；
国家基金，面向服务机器人的情感认知、表达及管理关键技术，2017.01-2020.12；
安徽省科技重大专项，类脑智能语音关键技术与系统研发，2017.7-2019.6;
高新技术项目298，2006.10-2010.12；863项目，多语言语音合成关键技术与应用产品开发，2006.06-2010.10；863项目，基于HMM模型的高表现力多语种语音合成技术，2006.01-2008.12；
973前期研究专项，声纹识别及声音转换深度学习理论与方法（2012CB326405），2012.8-2014.8；安徽省语音专项，面向移动互联网的新一代语音合成关键技术及系统，2011.01-2012.12；
安徽省语音专项，面向高级人工智能领域的类人智能关键技术及系统研发，2014.7-2016.6；国家青年基金，结合发音动作参数的统计建模语音合成方法研究，2010.1-2012.12；国家基金国际合作与交流项目，高表现力多语种语音合成，2011.1-2012.12；国家基金，语音信号声纹信息成分的深层表达（61273264），2013.01-2016.12；国家基金，融合语音产生机理与统计声学建模的层次化语音合成方法（61273032），2013.01-2016.12；国家青年基金，基于深度神经网络的噪声鲁棒性语音识别方法研究（61305002），2014.1-2016.12；
工信部电子信息产业发展基金，智能语音技术及产品研发与产业化--基于自然语音人机交互的信息搜索系统研发和产业化（2013-472），2014.2-2015.12；
工信部电子信息产业发展基金，面向少数民族语言的智能语音技术及系统研发（2014-425），2014.10-2016.10；
中科院先导专项（B类），类脑语音处理模型（XDB02070006），2015.7-2017.6；安徽省科技重大专项，语音及语言人工智能关键技术与云平台研发，2015.7-2017.7；

主要成就

论文及专利获奖情况

“多语种智能语音关键技术及产业化”获2024国家科技进步一等奖。
2024年连续五届CHiME大赛收获冠军。
2024年DCASE（国际声学场景和事件检测及分类挑战赛）双赛道第一。
2024年声音质量评价挑战赛（VoiceMOS Challenge）赛道2冠军。
Interspeech 2024离散语音挑战赛（Discrete Speech Challenge）高采样率声码器赛道冠军。
2024中文听觉注意力解码竞赛跨被试赛道冠军。
2024车载多通道语音识别（ICMC-ASR）竞赛双料冠军。
2023年获得Audio Deepfake Detection (ADD)挑战赛赛道1.2冠军。
2023年IJCAI2023 Deepfake Audio Detection and Analysis (DADA）伪造语音检测赛道第一名。
2023年ICASSP2024车载多通道语音识别ICMC-ASR比赛ASR和ASDR两个赛道均获第一名。
2023年IWSLT23语音翻译比赛方言和离线赛道第一名。
2023年国际多通道语音分离和识别评测CHiME-7，多设备多场景远场语音识别任务全部两个赛道冠军。
2023年国际文档分析与识别会议（ICDAR）挑战赛，文档信息定位与提取任务全部两个赛道冠军，票证结构化信息抽取任务零样本赛道冠军。
2021年ICASSP2022 DiCOVA新冠声音诊断比赛语音和融合赛道第一名、呼吸赛道第二名。
2020—2023年连续三年获得DCASE国际挑战赛声音事件定位与检测任务第一名。
2020年DIHARD-III说话人日志比赛第一名。
2020年NIST-OpenASR21多语种语音识别比赛15个语种22项任务第一名。
2006—2019年连续十四年获得Blizzard Challenge国际语音合成评测第一名。
2019年，计算机视觉与模式识别国际会议（CVPR）的航空图像目标检测比赛，Task1第一名。
2019年，文档分析与识别国际会议（ICDAR 2019）举办的多项赛事中，包揽手写数学公式识别挑战赛CROHME全部两项任务以及场景文本视觉问答挑战赛ST-VQA挑战赛上全部三项任务冠军，此外还取得了街景招牌中文文本识别挑战赛ReCTS单字识别任务冠军。
2018年，获得Voice Conversion Challenge国际语音转换评测第一名。
2018年9月，第五届国际多通道语音分离和识别大赛（CHiME）包揽了赛事全部项目的冠军。
2018年，ICFHR2018东南亚棕榈叶手稿分析竞赛任务三和任务四冠军。
2018年，ICPR2018多样式网络图片识别与检测竞赛全部三项冠军。
2018年，ICPR2018遥感图像目标检测竞赛（ODAI）全部两项冠军。
2017年，获得RepEval 2017国际多类型自然语言推理评测第一名。
2016年，获得Winograd Schema Challenge 2016国际常识推理评测第一名。
2016年9月，第四届国际多通道语音分离和识别大赛（CHiME）包揽了赛事全部项目的冠军。
2014年10月，在国家863专家组组织的中文语音合成技术国际评比中，以大比分囊获所有指标第一名。
2011年国际NIST语种识别最混淆方言对测试第一名；2008，2010年连续两届NIST说话人评测中关键指标均保持前两名；
“智能语音交互关键技术及应用开发平台”获得2008年度安徽省科技进步奖一等奖、2011年度国家科技进步二等奖。
“KD系列汉语文语转换系统”获2002年度国家科技进步二等奖。
长期开展与知名企业、研究机构的合作，取得显著成果。如与科大讯飞形成了良好的产学研体系，推动了语音及语言技术研究创新和产业应用发展

人才培养情况