武汉大学黄公平教授和南方科技大学王中秋副教授来访语音工程研究中心并做学术报告
发布时间:2025-05-28


2025526日上午,武汉大学黄公平教授和南方科技大学王中秋副教授受语音及语言信息处理国家工程研究中心张结副教授的邀请,在中科大高新校区信智楼C301会议室分别做了题为“麦克风阵列高保真波束形成方法”和“语音分离及其泛化”的精彩报告。本次报告由张结副教授主持,工程研究中心感兴趣师生参加了报告会。

波束形成和语音分离问题一直是语音前端的研究热点。报告会上,黄教授首先以声信号的感知和传播作为切入点,介绍了麦克风阵列在远场拾音问题上面临的挑战和现有波束形成技术的不足。他提到,由于远场信号低信噪比和麦克风阵列尺寸一般较小的限制,使得麦克风阵列在复杂的室内声学环境中,难以保持对远场宽带语音信号高保真输出。接着,黄教授介绍了适用于小型阵列高保真波束形成的差分麦克风阵列方法,并通过零点约束型差分阵列这一技术创新,阐述了波束形成技术高增益频不变,设计灵活并控制白噪声增益的技术需求。随后,针对提高差分阵列的调向能力这一目标,黄教授分别介绍了其团队在推广线性差分阵列到环形差分阵列、同心圆环差分阵列、任意结构差分阵列方面的实验探索成果及其理论证明,展示了如何通过雅可比级数展开的方式在最小均方误差准则下对实际波束图进行最优近似。最后,黄教授进一步介绍了通过构造全向和指向性麦克风组成的混合阵列,来实现声源和阵列不在同一水平面上时全空间调向的研究工作,拓展提出了球形差分阵列,动态环境下最优差分阵列设计以及波束宽度和旁瓣可控的差分阵列的设计问题,现场同学深受启发。

     王中秋副教授围绕“语音分离及其泛化”主题,系统介绍了其团队在远场语音处理、说话人分离和去混响等方向的最新研究进展及成果。报告从语音交互在复杂声学环境中的挑战出发,王教授首先回顾了传统监督学习在语音增强与分离中的进展,尤其是在复杂频谱映射方面的创新,并详细介绍了其提出的TF-GridNet模型。该模型融合全频段与子频段建模能力,结合时间和频率维度上的注意力机制,实现了优秀的语音分离性能。在语音去混响方面,王教授提出了基于前向卷积预测(FCP)的新方法,通过联合估计目标语音与混响滤波器,有效解决了传统方法无法建模的反射信号影响,显著提升了语音质量和语音识别准确率。此外,报告还深入探讨了无监督、弱监督和半监督语音分离方法的研究动向,重点介绍了其团队提出的UNSSORUSDnetSuperM2M等模型,分别在利用未标注真实数据、融合近讲远讲混合信息、以及联合监督与非监督学习方面取得了突破,显著提升了模型在真实复杂环境下的泛化能力。

两场学术报告吸引了研究中心相关方向的师生广泛参与讨论,两位教授耐心地回答了在场师生的提问。本次报告会不仅可以帮助学生了解麦克风阵列技术、语音分离等领域的前沿研究进展,更对学生如何开展以点带面、系统性的科研具有启发意义。


嘉宾简介:

黄公平,武汉大学教授、博士生导师。获国家高层次青年人才、湖北省高层次人才、德国 “洪堡学者”、中国电子学会优博、以色列理工Andrew and Erna Finci Viterbi奖、陕西省优博等荣誉。研究面向语音通信和人工智能的声信号感知理论与关键技术。在国际权威期刊与会议上发表论文70余篇,在Springer出版《Microphone Arrays》学术专著1本,获授权国际发明专利7项。担任IEEE Signal Processing Letter Circuits Systems and Signal Processing编委(Associate Editor),《电子学报(英文版)》、《信号处理》和《声学学报》青年编委、任IEEE Senior Member,中国电子学会高级会员、IEEE声学信号处理技术委员会(AASP)委员,国际会议IEEE ICSPCC 2024共同技术主席、中国计算机学会语音听觉与对话专委等。


 王中秋,博士,国家级青年人才,现任南方科技大学计算机科学与工程系副教授,曾在美国三菱电机研究院任访问研究员、在美国卡内基梅隆大学语言技术研究所任博士后研究员,是IEEE Audio and Acoustic Signal Processing(AASP)技术委员会的委员会委员。王博士的研究课题集中于人工智能和计算听觉中对于声学信号的感知、理解与生成,迄今已在人工智能、语音及音频信号处理领域发表顶级期刊和会议论文70余篇,曾获信号处理旗舰会议ICASSP2018最佳学生论文奖。