智能语音信息处理

主要开展语音合成、语音识别、语音增强、说话人识别、语种识别、手写识别与光学字符识别、自然语言处理等领域的研究工作。研究室现有教授 5 人(其中客座教授2人,兼职教授2人)、副教授4人。其中戴礼荣教授主要从事语音识别等方向研究工作; 凌震华副教授主要研究领域为语音合成、自然语言处理等方向;郭武副教授主要研究领域为说话人识别等方向;杜俊副教授的主要研究领域为语音识别、语音增强、手写识别和光学字符识别等;宋彦副教授主要研究领域为语种识别、基于内容的音视频分析和检索等。

研究室承担了多项863计划课题、973计划课题、国防预研项目、国家基金项目等,在人机语音交互技术各研究领域取得了丰硕的研究成果,在历次国内国际的语音评测过程中均取得了优异的成绩,核心技术水平达到了国际先进领先。 同时在产业合作方面与科大讯飞形成了良好的产学研体系,推动了语音及语言技术研究创新和产业应用发展。 研究室重视人才培养质量提高,培养毕业的研究生中曾获得微软学者奖、郭沫若奖学金、中国科学院院长奖学金、中国科学院院长特别奖等。


学术带头人

头像
戴礼荣

工学博士,教授,博士生导师。“语音与语言信息处理国家工程实验室”副主任及技术委员会委员,《数据采集与处理》编委,NCMMSC(全国人机语音通讯学术会议)常设机构委员会委员,中国电子学会信号处理分会第九届委员会委员。

主要从事语音信号与信息处理方向的教学与科研工作;目前的研究兴趣重点在基于深度学习的语音信号与信息处理,具体研究方向包括语音识别、说话人识别、语种识别、语音合成、语音增强等。

近年来主持或作为主要成员承担并完成了国家自然科学基金、国家863计划、973预先研究计划、国防预先研究计划、工信部电子基金、安徽省语音专项等20余项国家级或省部级课题。 在IEEE、ICASSP、INTERSPEECH、等国内外期刊和语音领域顶级学术会议上发表学术论文100余篇。获得国家科技进步二等奖1次,安徽省级科技进步一等奖1次,省部级科技进步二等奖2次;获得安徽省自然科学优秀论文一等奖1次。


师资队伍

头像
凌震华

中国科学技术大学副教授,博导。从事语音信号处理、语音合成、声音转换、自然语言处理等方向的研究。2008年获得中国科学技术大学信号与信息处理专业博士学位。 作为项目负责人和主要成员承担和参与多个国家自然科学基金、国家863计划、973预先研究计划、安徽省语音专项等科研项目。2007年10月至2008 年4 月,由Marie Curie Early Stage Training 项目支持,赴英国爱丁堡大学语音技术研究中心进行学术访问。2012年8月至2013年8月, 访问美国华盛顿大学开展合作研究。在国内外学术期刊与会议上发表学术论文共100余篇。2010年获得IEEE信号处理学会最佳青年作者论文奖。2014-2017年担任IEEE/ACM Transactions on Audio, Speech, and Language Processing期刊副编辑。

头像
郭武

电子工程与信息科学系副教授,主讲本科生专业必修课“信号与系统”。2008年短期访问南洋理工大学;获得微软亚洲研究院“青年教授计划”资助,于2008年9月 - 2009年2月期间在微软亚洲研究院访问进修。在进行学术研究的同时, 广泛参与国内语音尤其是说话人识别领域的交流,包括:公安部的TC100/SC2-VPR标准的声纹识别小组,中国中文语音创业联盟等。受国家自然科学基金和国家863项目共同支持的研究成果“KD系列汉语文语转换系统”, 获得 2002年国家科技进步二等奖。主持和参与了多项国家自然科学基金、863以及国家级高技术预研项目,研究方向主要为声纹识别、关键词识别。在国内外有影响力的期刊和会议上发表了四十多篇关于说话人识别、关键词识别方面研究论文。

头像
杜俊

现任语音及语言信息处理国家工程实验室副教授。2009年博士毕业于中国科学技术大学信号与信息处理专业;2009-2010年在科大讯飞研究院任研究主管, 负责语音识别系统的研发;2010-2013年在微软亚洲研究院视觉计算组和语音组任副研究员,主持并参与多项和语音识别、手写识别和光学字符识别相关的研究项目。 当前主持国家和安徽省自然科学基金各1项,主要研究方向包括模式识别和信号处理,担任语音和模式识别领域主流国际学术期刊和会议的论文评审,在国际学术期刊与会议上发表一作论文20多篇。

头像
宋彦

信号与信息处理专业博士, 现任中国科学技术大学电子工程与信息系副教授。现主要承担本科生电子线路的教学工作。主要研究方向为语种识别,基于内容的音、视频分析和检索等。2006年毕业于  中国科学技术大学电子工程与信息系,获博士学位。2003年参加国家基金项目“分布式语音前端综合计算”; 2004年-2007年国防预研项目“中低速语音编码中参数码本的求解算法研究”等。主持国防项目,国家自然科学基金“基于情境建模的视觉匹配方法及应用”,安徽省自然科学基金 "面向大规模数据库、特定概念集的视频标注方法研究”项目等。

主要科研项目

    • 国家基金,基于回归神经网络的语音分离关键问题研究,2017.01-2020.12;

    • 国家基金,面向服务机器人的情感认知、表达及管理关键技术,2017.01-2020.12;

    • 安徽省科技重大专项,类脑智能语音关键技术与系统研发,2017.7-2019.6。

    • 高新技术项目298,2006.10-2010.12;

    • 863项目,多语言语音合成关键技术与应用产品开发,2006.06-2010.10;

    • 863项目,基于HMM模型的高表现力多语种语音合成技术,2006.01-2008.12;

    • 973前期研究专项,声纹识别及声音转换深度学习理论与方法(2012CB326405),2012.8-2014.8;

    • 安徽省语音专项,面向移动互联网的新一代语音合成关键技术及系统,2011.01-2012.12;

    • 安徽省语音专项,面向高级人工智能领域的类人智能关键技术及系统研发, 2014.7-2016.6;

    • 国家青年基金,结合发音动作参数的统计建模语音合成方法研究,2010.1-2012.12;

    • 国家基金国际合作与交流项目,高表现力多语种语音合成,2011.1-2012.12;

    • 国家基金,语音信号声纹信息成分的深层表达(61273264),2013.01-2016.12;

    • 国家基金,融合语音产生机理与统计声学建模的层次化语音合成方法(61273032),2013.01-2016.12;

    • 国家青年基金,基于深度神经网络的噪声鲁棒性语音识别方法研究(61305002),2014.1-2016.12;

    • 工信部电子信息产业发展基金,智能语音技术及产品研发与产业化--基于自然语音人机交互的信息搜索系统研发和产业化(2013-472),2014.2-2015.12;

    • 工信部电子信息产业发展基金,面向少数民族语言的智能语音技术及系统研发(2014-425),2014.10-2016.10;

    • 中科院先导专项(B类),类脑语音处理模型(XDB02070006),2015.7-2017.6;

    • 安徽省科技重大专项,语音及语言人工智能关键技术与云平台研发,2015.7-2017.7;

主要成就

    • 2006—2017年连续十二年获得Blizzard Challenge国际语音合成评测第一名。

    • 2016年,2016年9月,国际多通道语音分离和识别大赛(CHiME)包揽了赛事全部三个项目的冠军

    • 2014年10月,在国家863专家组组织的中文语音合成技术国际评比中,以大比分囊获所有指标第一名。

    • 2011年国际NIST语种识别最混淆方言对测试第一名;2008,2010年连续两届NIST说话人评测中关键指标均保持前两名;

    • “智能语音交互关键技术及应用开发平台”获得2008年度安徽省科技进步奖一等奖、2011年度国家科技进步二等奖。

    • “智能语音交互关键技术及应用开发平台”获得2008年度安徽省科技进步奖一等奖、2011年度国家科技进步二等奖。

    • “KD系列汉语文语转换系统”获2002年度国家科技进步二等奖。

    • 长期开展与知名企业、研究机构的合作,取得显著成果。如与科大讯飞形成了良好的产学研体系,推动了语音及语言技术研究创新和产业应用 发展。


论文及专利获奖情况

    • ISCSLP2006/ICASSP2007/ISCSLP2010国际学术会议最佳学生论文奖

    • 凌震华副教授获得2010年度IEEE信号处理学会最佳青年作者论文奖

人才培养情况

研究室重视人才培养质量提高,积极为研究生提供多途径实习、合作培养等的机会。该研究方向培养硕士研究生约60名,博士研究生约20名。培养的研究生中, 自95年以来在参加的历届大学生挑战杯上都荣获优异的成绩,其中95、97、99年获得二等奖,2001年获得一等奖,这些奖项都是历届安徽省所有参赛高校中荣获的电子计算机类最高奖;2005-2006年3人获得微软学者奖,自98年以来的毕业生中, 共有5人获得科大最高奖——郭沫若奖学金及科学院系统研究生最高奖——中国科学院院长奖学金,并获中国科学院院长特别奖一次。其中本方向毕业的刘庆峰博士现为科大讯飞公司董事长、总裁。