活动预告|第十七届全国人机语音通讯学术会议
发布时间:2022-12-14

第十七届全国人机语音通讯学术会议(National Conference on Man-Machine Speech Communication,NCMMSC2022)将于2022年12月15-18日在线上举行。本次会议由中国计算机学会和中国中文信息学会联合主办,科大讯飞股份有限公司、中国科学技术大学和语音及语言信息处理国家工程研究中心联合承办,会议同时为中国计算机学会语音对话与听觉专委会的学术年会(CCFTFSDAP)。
会议简明日程见下表,其中黄色标出的会议活动将免注册开放(腾讯会议号:668-5466-5574)。了解完整会议日程和会议注册方式可通过文末二维码访问会议官网。

大会报告、教程报告与青年论坛报告相关信息如下。



大会报告



01

12月16日9:20-10:00

                                             

报告嘉宾:秦兵

报告题目:人机对话关键技术

报告摘要:人机对话是人工智能研究的热点之一,受到了学术界和工业界的广泛重视,基于人机对话技术的产品也层出不穷。随着人机对话技术的进展以及人们对于人机对话类产品需求的多样化,使得通用对话系统在适应不同场景、面向不同群体时的能力成为下一阶段人机对话技术和应用的重点发展方向。本报告针对自动回复生成中语言的相关性、一致性、角色化以及情感信息融入等关键技术进行研究,从而进一步提高人机对话的质量及拓宽人机对话的应用场景。

嘉宾简介:秦兵,哈尔滨工业大学计算学部教授,博士生导师,哈尔滨工业大学社会计算与信息检索研究中心主任。国家重点研发课题、国家自然科学基金重点项目负责人。科技部科技创新2030-“新一代人工智能”重大项目管理专家组专家,中国中文信息学会理事/语言与知识计算专委会副主任/情感计算专委会主任。主要研究方向:自然语言处理,知识图谱,情感计算,文本生成。获中文信息学会钱伟长中文信息处理科学技术奖一等奖、黑龙江省科学技术奖一等奖、黑龙江省科学技术奖二等奖和黑龙江省技术发明奖二等奖。入选“2020年度人工智能全球女性及AI 2000最具影响力学者榜单”和“福布斯中国2020科技女性榜”。



02

12月16日10:00—10:40

报告嘉宾:顾曰国
报告题目:Towards a prototype model of super-healthy talks by 85-100 old adults
报告摘要This paper presents a preliminary study of talks by 15 speakers, whose ages include 5 over 85s, 7 over 90s, and 3 100s. Talks refer to face-to-face oral interactions between the elders and interviewers. All talks except two are audio-videotaped. These data are part of our project of Multimodal Corpora of Gerontic Discourse (MCGD) funded by the National Social Science Foundation of China (Code 21&ZD294). The expression “prototype model” is adopted as a technical term designating a key concept of our gerontic assessment scheme. Elders aging 60 to 100 are divided into 5-year birth cohorts, and each cohort is assessed in terms of a four-value scale, viz. super-healthy, healthy, normal and abnormal. The super-healthy this paper addresses actually covers three birth cohorts, each of which is treated as super samples against which elders in the same cohort will be assessed according to the four-value scale, hence the term prototype.
The oral talks are anatomized in three tiers, viz. the tier of illocution, of emotion and of prosody. The three tier analyses are synchronized in temporal points, and evaluated according to the Principle of Speech-Thought-Emotion-Embodiment Integration (the STEE Principle), as formulated in Gu ( 2013) , 顾曰国(2013, 2018).
嘉宾简介:Gu, Yueguo, M.A., Ph.D., Dr. Lit. honoris causa (all from Lancaster University), is presently chief scientist of Artificial Intelligence and Human Language Research Centre. He is also director of China Multilingual Multimodal Corpora and Big Data Research Centre, Beijing Foreign Studies University, and Director of Aging, Language and Care Research Centre, Tongji University/CASS. His research interests include pragmatics, discourse analysis, corpus linguistics, rhetoric and online education. His latest publications include The Routledge Handbook of Pragmatics (co-edited), The Encyclopedia of Chinese Language and Linguistics (co-edited, 5-volumes, Brill), the Chinese Painting, the Chinese Writing by FLTRP, and Gerontolinguistics and Multimodality Studies by Tongji University Press.
He was the winner of five national top research prizes, and was awarded a K. C. Wong Fellow of the British Academy in 1997. He is a holder of many honorary posts, most noticeably special professorship of the University of Nottingham, Adjunct Professor of West Sydney University, Visiting Lecture Professor of Peter the Great St. Petersburg Polytechnic University, and Distinguished Research Fellow of Sydney University.



03

12月17日9:00—9:40

报告嘉宾:潘嘉
报告题目:科大讯飞语音技术前沿进展
报告摘要:本报告重点围绕语音和音视频预训练、语音识别和语音合成技术的研究热点方向,介绍了科大讯飞的最新技术进展,并对未来的发展进行了展望。
嘉宾简介:潘嘉,中国科学技术大学博士,高级工程师,现任科大讯飞杰出科学家。长期从事语音识别、说话人识别、语音合成、深度学习等方向上的前沿技术研究。主导和参与了多个省部级项目,获得安徽省科技进步一等奖、中国电子学会科学技术奖一等奖。带队获得语音识别评测CHiME、多语种识别评测openASR2021、说话人角色分离评测DIHARD3、语音合成评测Blizzard Challenge等国际知名评测任务的冠军。共发表国内外会议期刊论文10余篇,获得授权或公开的发明专利30余项。



04

12月17日9:40—10:20

报告嘉宾:朱晓波
报告题目:超导量子计算进展
报告摘要:由于量子计算在某些问题的处理能力上相比于经典计算机有着压倒性的优势,被普遍认为是下一代的计算技术,因而引起了广泛的关注。超导方案因具有良好的可扩展性就,目前备受关注,各大公司纷纷投资进入该领域。本次报告将主要讲解超导量子计算的现状及近期和中远期目标,并着重介绍我们在超导量子芯片上取得的一系列进展。
嘉宾简介:朱晓波,中国科学技术大学教授。主要从事超导量子计算以及超导约瑟夫森结系统的研究。在磁通量子比特与金刚石中的NV色心的量子混合系统上做出了一系列的重要工作。先后创造了超导量子比特最大纠缠数目纪录。研制了超导量子计算原型机“祖冲之号”,实现了“量子优越性”。




教程报告



01

12月15日13:00—14:30

                                               

报告嘉宾:谭旭
报告题目:深度生成模型在语音合成中的应用
报告摘要:在文本到语音合成(Text-to-Speech, TTS)中,语音数据的分布通常符合一个给定文本的条件概率分布,可用生成模型来进行建模。随着近年来深度学习的发展,深度生成模型(例如自回归模型、GAN、VAE、Flow、Diffusion等)被广泛应用于TTS并且取得了显著的质量提升。在本次报告中,首先简要介绍TTS以及深度生成模型的背景,然后详细介绍深度生成模型应用于TTS的典型工作,并针对不同生成模型的优缺点进行对比分析,最后探讨深度生成模型应用于TTS的潜在研究方向。
嘉宾简介:谭旭,微软亚洲研究院高级研究经理,研究领域包括深度学习、自然语言/语音/音乐、AI内容生成等,在学术会议上发表论文100余篇。研发的机器翻译和语音合成系统获得多项比赛冠军并在学术评测集上达到人类水平,研究工作如预训练语言模型MASS、语音合成模型FastSpeech/NaturalSpeech、AI音乐项目Muzic受到业界广泛关注,多项研究成果应用于微软产品(Azure,Bing等),在多个学术会议和期刊担任程序委员、高级程序委员以及执行编委(包括NeurIPS、AAAI、ICASSP、TMLR等)。个人主页:https://tan-xu.github.io/。



02

12月15日14:40—16:10

   

报告嘉宾:王东 李蓝天
报告题目:复杂场景说话人识别方法
报告摘要:随着深度学习技术的进步和数据的积累,说话人识别技术近几年取得长足进展,然而在实际应用场景中依然存在显著的性能下降。基于此,复杂现实场景中的说话人识别方法成为当前的研究热点,包括噪声鲁棒性、跨设备识别、跨场景识别等。本讲座将介绍说话人识别的基本原理及当前基于深度神经网络的主流方法,在此基础上总结应对复杂场景的前沿技术,并介绍在跨场景声纹识别挑战赛中被证明行之有效的技术方案。
嘉宾简介
王东,爱丁堡大学博士,清华大学副研究员,IEEE高级会员,APSIPA杰出讲师,在语音信号处理领域发表论文150余篇,最佳论文奖4次,Google Schlar引用4000余次,著有《人工智能》《机器学习导论》等著作,其主持发布的THCHS30数据库及其相关的Kaldi例程是首个全开源的中文语音识别系统。
李蓝天,清华大学博士、博士后,北京邮电大学副教授,APSIPA SLA委员,在语音识别、说话人识别等领域发表论文50余篇,最佳论文奖2次,著有《Robust Speaker Recognition》、《语音识别基本法》等著作。李蓝天博士是多场景声纹识别数据库CNCeleb的主要发起人,也是CNSRC多场景声纹识别竞赛的发起者和组织者。



03

12月15日16:20—17:50

报告嘉宾:祁均
报告题目:Quantum Machine Learning: Theoretical Foundations and Applications on NISQ Devices
报告摘要:Quantum computing has undergone rapid development over recent years: from first conceptualization in the 1980s, and early proof of principles for hardware in the 2000s, quantum computers can now be built with hundreds of qubits. While the technology remains in its infancy, the fast progress of quantum hardware has led many to assert that so-called Noisy-Intermediate Scale Quantum (NISQ) devices could outperform conventional computers shortly. Remarkably, the Variational Quantum Eigensolver (VQE) was put forth to be the most promising algorithm on NISQ devices because VQE admits only a small number of qubits and shows some degree of noise resilience. The VQE mechanisms are often cast as hybrid algorithms that practically allow a variational quantum classifier (VQC) with classical machine learning and signal processing models. Moreover, the quantum kernel algorithms realize the property of non-linearity in quantum feature space and have even been regarded as an alternative to VQC for quantum machine learning data. Thus, this proposal aims at the state-of-the-art quantum machine learning algorithms by investigating the VQC-based quantum algorithms in-depth and exploiting the related applications in machine learning and signal processing problems.
嘉宾简介:Dr. Jun Qi received his Ph.D. in the School of Electrical and Computer Engineering at Georgia Institute of Technology, Atlanta, GA, in 2022, advised by Prof. Chin-Hui Lee and Prof. Xiaoli Ma. He is currently an Assistant Professor in the Department of Electronic Engineering at Fudan University. Previously, he obtained two Masters in Electrical Engineering from the University of Washington, Seattle, and Tsinghua University, Beijing, in 2013 and 2017, respectively. Besides, he was a research intern in the Deep Learning Technology Center at Microsoft Research, Redmond, WA, Tencent AI Lab, WA, and MERL, MA, USA. Dr. Qi was the recipient of 1st prize in Xanadu AI Quantum Machine Learning Competition 2019, and his ICASSP paper on quantum speech recognition was nominated as the best paper candidate in 2022. Besides, he gave two Tutorials on Quantum Neural Networks for Speech and Language Processing at the venues of IJCAI’21 and ICASSP’22.




青年论坛报告



01

 12月16日13:30—14:00

报告嘉宾:陈谐
报告题目:基于信息解耦的端到端语音识别系统和高效语言模型自适应。
报告摘要:近年来,基于端到端模型的语音识别系统联合建模声学信息和语言信息,极大的提高了语音识别系统的性能和优化其训练复杂度,逐渐成为了语音识别系统的主流系统。但是,由于其声学和语言信息联合建模的特性,也带来了一些问题和挑战,譬如如何基于文本数据进行快速领域自适应。本报告将介绍我们近期提出的基于信息解藕的端到端模型,通过改进端到端模型结构设计,让其联合优化的同时,也具备独立的语言模型模块,可以灵活高效的应用语言模型自适应技术,基于文本数据进行领域自适应。实验结果表明该方法可以取得较其他模型更佳的显著性能提升。
嘉宾简介:陈谐,上海交通大学计算机科学与工程系长聘教轨副教授,博士生导师,获国家海外高层次人才(青年)项目资助。2009年本科毕业于厦门大学电子工程系,2012年硕士毕业于清华大学电子系,2016年博士毕业于剑桥大学信息工程系,博士毕业后先后在剑桥大学从事博士后研究,美国微软研究院任高级研究员,资深研究员,2021年9月加入上海交通大学。主要研究方向为深度学习和智能语音信号处理,在本领域的国际权威会议和期刊发表论文50余篇。



02

12月16日14:00—14:30

报告嘉宾:刘树杰
报告题目:预训练模型在语音处理中的应用。
报告摘要:随着预训练模型在自然语言处理和图像处理中的进展,语音预训练模型也越来越受到重视。基于预训练模型的语音处理方法在多个任务上也取得了突破性的进展。在本报告中,我们将介绍目前主流的语音预训练模型,并进一步介绍如何构建预训练模型以适用于所有语音处理任务,如何基于编码器解码器的语音预训练模型,以及如何利用文本数据来增强语音预训练模型的性能。
嘉宾简介:刘树杰,微软亚洲研究院高级研究员和研究经理。2012年博士毕业于哈尔滨工业大学。研究兴趣包括自然语言处理,语音处理和深度学习相关技术。在自然语言处理以及语音处理各顶级期刊和会议(包括CL, JSTSP, ACL, ICASSP, AAAI, EMNLP, NAACL, INTERSPEECH 等)上发表论文100余篇,并合著《机器翻译》一书,参与编写《人工智能导论 》一书。研究成果被广泛应用于Microsoft Translator、Skype Translator、Microsoft IME、微软语音服务(包括语音生成,语音分离和识别)等微软重要产品中。



03

12月16日14:30—15:00

报告嘉宾:杜忆
报告题目:多模态语音感知与理解的脑环路机制。
报告摘要:自然场景下的言语交流通常都伴随着说话人唇动、手势等视觉运动信息。人脑如何整合多模态信息以促进语音感知及理解,其神经环路机制还尚不明晰。本讲座将介绍一项经颅磁刺激研究,揭示人脑喉部运动皮层在语音范畴知觉决策中的因果性贡献;一项多模态磁共振成像研究,揭示视觉唇动信息促进噪音下语音感知的神经机制;以及一项精密计时经颅磁刺激研究,揭示语音-手势跨通道语义整合的动态脑环路机制。
嘉宾简介:杜忆,中国科学院心理研究所研究员,博士生导师,国家自然科学基金“优青”基金获得者。2011年于北京大学获基础心理学博士学位,其博士论文获得2013年全国优秀博士学位论文。2012年至2015年先后在加拿大多伦多大学Rotman研究所和麦吉尔大学蒙特利尔神经病学研究所从事认知神经科学的博士后研究。2016年初入职中国科学院心理研究所。杜忆研究员主要利用心理物理学方法、多种脑成像技术(包括功能核磁共振成像、脑磁图、脑电)和非侵入性神经调控技术(经颅电/磁刺激)从事人类听觉言语与音乐认知的脑机制研究,研究领域包括:言语知觉和理解的脑机制,言语认知的毕生发展及可塑性机制,音乐认知的脑机制。研究成果发表在Nature Communications、PNAS、Neuroimage、Journal of Neuroscience、Cerebral Cortex和Neuroscience & Biobehavioral Reviews等国际一流期刊。其研究获得科技部2030-“脑科学与类脑研究”重大项目课题,国家自然科学基金,中科院先导计划等多项基金资助。



04

12月17日15:45—16:15

报告嘉宾:张卫强
报告题目:低资源小语种语音识别与分析。
报告摘要:全世界有7000多种语言,目前仅有较少的语种可以进行自动语音识别和分析。对于一些小语种而言,能获取的语音识别资源非常有限,按照常规技术根本无法构建出可用的语音识别和分析系统。本报告首先介绍国外在低资源语音识别和分析方面几个典型的研究计划,接着介绍我们实验室在该方面的一些工作进展,最后给出展望和总结。
嘉宾简介:张卫强,副研究员,清华大学语音与音频技术实验室负责人。2009年在清华大学电子工程系获博士学位,之后留校任教,2016-2017年斯坦福大学访问学者。主要研究方向为语音与音频信号处理、低资源语音识别等。以负责人身份承担自然科学基金重点项目、国家重点研发专项课题等多个项目。发表学术论文200余篇;申请国家发明专利40余项。获教育部科技进步一等奖、科技奥运先进集体奖,获得NIST等多项国际语音比赛冠军。



05

12月17日16:15—16:45

报告嘉宾:许家铭
报告题目:多线索驱动的半监督目标说话人分离。
报告摘要:由于干扰噪音的存在,复杂场景下的语音交互系统仍存在通话质量差与识别准确率低的问题,尚未达到泛场景“很好用”的令人满意程度。在此背景下,催生出了围绕听觉鸡尾酒会问题的语音分离任务来提升目标说话人信噪比,以改善通话音质量和语音交互体验。当前大多数语音分离方法(包括盲源分离和目标说话人分离)是在仿真的多人混合语音数据上训练和评估的。然而由于声学场景的差异,仿真数据与真实数据可能存在数据分布不匹配问题,从而使得语音分离模型部署在真实环境时性能衰减严重。针对如上问题,本报告首先分享团队面向多种真实场景构建的100小时中、英文多模态语音分离与识别数据集RealMuSS,然后介绍一种多模态线索驱动的半监督目标说话人分离方法,有效整合空间、视觉和声纹等多模态线索优势并提升模型在真实场景的自适应能力。
嘉宾简介:许家铭,中国科学院自动化研究所副研究员,硕士生导师。研究工作围绕智能语音交互展开,主要方向包括语音分离与识别,智能问答与对话。目前承担或参与国家及相关部委科研项目10余项,包括国家自然科学基金、科技部2030重大项目,中科院战略性先导科技专项以及北京市科技重大项目等。在AAAI, IJCAI, NeurIPS, ACL, ICASSP和IEEE Trans.等国际会议和期刊上发表论文50余篇,申请发明专利20余项,第一作者译著《听觉系统与鸡尾酒会问题》一书。长期开展产学研结合,相关成果应用于多家合作企业。



06

12月17日16:45—17:15

报告嘉宾:李明
报告题目:面向复杂场景的鲁棒声纹识别及其关联任务研究。
报告摘要:首先介绍实验室在长时间跨度、远场、自监督、笑声等复杂场景下的声纹识别近期研究成果;其次,介绍基于TSVAD框架的说话人日志进展;最后,从带噪语音检测、可逆变声、伪造方法溯源、源说话人确认等角度介绍伪造音检测相关进展。
嘉宾简介:李明,昆山杜克大学电子与计算机工程长聘副教授,大数据研究中心研究员,武汉大学计算机学院兼职教授,博导,杜克大学电子与计算机工程系客座研究员。第十五批江苏省六大高峰B类高层级人才。2005年获南京大学通信工程专业学士学位,2008年获中科院声学所信号与信息处理专业硕士学位,2013年毕业于美国南加州大学电子工程系,获工学博士学位。2013-2017年任教于中山大学卡内基梅隆大学联合工程学院及电子与信息工程学院,副教授,博士生导师,其中2013-2014年在卡内基梅隆大学电子与计算机工程系访问。2018年加入昆山杜克大学,研究方向包括智能语音处理,多模态行为信号分析等方向。已发表学术论文140余篇,现担任IEEE语音及语言技术委员会委员,APSIPA 语音及语言处理专委会委员,中国计算机学会语音对话与听觉专委会专委,中国人工智能学会情感智能专委会专委,IEEE高级会员。

       大 会 官 网       



了解完整日程和注册方式