1月7日,由语音及语言信息处理国家工程实验室主办的语音与智能信息处理学术论坛在中国科学技术大学西区二楼多功能厅举办。论坛邀请了哥伦比亚大学陈卓、罗艺博士,佐治亚理工学院祁均博士分别做分享报告。论坛由国家工程实验室杜俊副教授主持,来自中科大及外校相关感兴趣的学生聆听了报告。
陈卓博士做了题为“Continuous speech separation for conversational speech recognition”的报告。报告首先介绍了远场对话语音识别以及说话人标记聚类的重要性和难点。在远场语音对话环境下,说话人数量巨大,重叠语音(overlap speech),对话环境的多样性等都使此场景下的语音识别效果欠佳。因此,使用语音分离系统是一个必要的选择。接着,陈博士介绍了语音分离系统中存在的排列问题并且介绍了基于连续语音分离的语音识别系统。基于连续语音分离的语音识别系统能够带来显著的词错误率的下降,同时能够解决重叠语音的问题且不影响非重叠语音的效果。它同样能解决存在较多说话者转变的句子以及工程上的延迟问题。最后,陈博士介绍了基于连续语音分离的语音识别系统和波束成形技术的结合,以及基于连续语音分离的语音识别系统和说话人先验信息的结合。
罗艺博士做了题为“End-to-end speech separation with single and multiple microphones”的报告。报告主要介绍了端到端的语音分离系统以及国际常用的语音分离技术。端到端的语音分离系统能够在时域上直接进行分离的操作,较为方便。随后,罗博士介绍了单通道语音的端到端分离系统。单通道语音的端到端分离系统能够同时考虑输入的幅度和相位信息,同时能够在理论上达到一个较小的延时。最后,罗博士介绍了多通道端到端语音分离系统,以及该系统的若干改进版本。
祁均博士做了题为“Analyzing Performance Bounds on Mean Absolute Errors for Deep Neural Network Based Vector-to-Vector Regression”的报告。报告主要介绍了基于DNN的向量-向量回归网络的平均绝对误差的上限。祁均首先介绍了移动端的深度学习系统。移动端的深度学习系统深必须压缩模型复杂度以适应集成电路,同样需要减少量化误差的低功率操作。深度学习系统试图解决非凸优化问题,在DNN训练过程中,SGD发现的局部最优点较多,可能离全局解决方案还很远。因此我们需要找到平均绝对误差的上限。随后,祁均就基于DNN的向量-向量回归网络的平均绝对误差的上限进行了阐释。最后还介绍了基于深度神经网络的张量训练分解的向量-向量回归。
与会者在专家报告之后进行了提问和交流。本次论坛在热烈的探讨中圆满结束。