“多语种智能语音关键技术及产业化”项目获国家科学技术进步奖一等奖
发布时间:2024-06-25

6月24日上午,中共中央、国务院在北京隆重举行2023年度国家科学技术奖励大会。科大讯飞股份有限公司、中国科学技术大学等合作单位共同完成的“多语种智能语音关键技术及产业化”项目荣获2023年度国家科学技术进步奖一等奖。这是深度学习引发全球人工智能浪潮以来,过去十年人工智能领域首个国家科学技术进步奖一等奖。语音及语言信息处理国家工程研究中心主任刘庆峰为第一完成人,工程研究中心副主任刘聪、凌震华,工程研究中心骨干杜俊等为共同完成人。

国家科学技术奖,是国务院设立的,是我国科学技术领域的最高奖。包括国家最高科学技术奖、国家自然科学奖、国家技术发明奖、国家科学技术进步奖和中华人民共和国国际科学技术合作奖五个奖项,旨在表彰在科学技术进步活动中做出突出贡献的公民、组织,调动科学技术工作者的积极性和创造性,加速科学技术事业的发展。


项目团队持续攻关多年,攻克了多个技术难题,打破技术封锁,提出了四个方面的技术创新。


创新点一,复杂语音信号解耦建模关键技术突破。


语音识别研究中最具挑战的是远场、噪声、多人语音混叠等现象导致的“鸡尾酒会”效应典型难题。项目团队提出了多通道语音信号时空分离建模方法和多维度语音属性解耦表征方法,实现语音信号中内容、噪声等高度耦合的多维属性特征解耦,解决了“鸡尾酒会”的难题,使得复杂场景下语音识别准确率得到重大突破。


创新点二,多语种共享建模关键技术突破。


为了应对多语种技术“卡脖子”问题,必须解决小语种智能语音系统构建所面临的知识匮乏、训练数据稀缺等难题。项目团队设计了全新的多语种通用音素体系和基本语言单元,实现多语种统一音素韵律体系的构建,又通过基于元学习的多语种预训练和基于语族分组的多语种共享建模——通俗地说,就是将不同的小语种进行分类,找到同类语种的共同规律,进行分析建模和训练——最终,显著提升了小语种语音系统性能。

相关技术在2021年国际低资源多语种语音识别竞赛OpenASR中获得15个语种受限赛道和7个语种非受限赛道的冠军。2024年,结合语音属性解耦表征、多语种多任务共享建模等关键技术成果发布星火语音大模型,首批37个主流语种的语音识别效果超过OpenAI Whisper V3。


创新点三,语音语义联合建模关键技术突破。


复杂应用场景下语音交互、语音翻译面临着深层次语义理解困难、专业性不足等问题。

项目团队提出语音语义互增强的鲁棒口语理解技术,有效提升语音交互、语音翻译等复杂场景的语义理解准确率;提出多源知识增强的可信文本生成技术,提升专有词汇及领域知识引用的准确率。

技术成果应用在多个方面:如英语口语评测首次达到人类专家水平,是满足高考应用要求的技术,累计服务超1.3亿考生;智能客服系统规模应用,累计服务超8亿人,多行业对话成功率超90%。


创新点四,国产异构硬件平台训练及推理加速关键技术突破。


使用国产芯片开展智能语音算法模型训练和推理面临性能低、适配难等问题。

项目团队提出硬件亲和的变长输入算子融合和联合统一量化感知训练技术,通过软硬件协同优化的动态张量算子自动融合方法,实现对语音等变长输入的训练性能优化达到国际主流芯片同等水平;通过多硬件联合的量化计算模拟,达到模型单次训练后可在不同硬件平台上一键部署,解决了智能语音技术硬件平台的“卡脖子”问题。

目前,已建成5个国产化集群,语音合成、识别、翻译、交互等国产化能力日服务8.73亿次。

语音是人类最自然便捷的沟通方式,是万物互联时代智能设备人机交互的关键入口。该项目在我国产业全球竞争力提升、国家安全、‘一带一路’等国家战略中承担了关键支撑作用,是我国人工智能领域中极为难得的具有全球影响力、走在世界前列的卓越科技成果,对推动我国人工智能产业发展发挥了不可替代的重要作用。