10月28日,日本国立情报学研究所(National Institute of Informatics)博士后研究员王鑫受语音及语言信息处理国家工程实验室凌震华副教授邀请访问实验室,并在科大西区科技实验楼西楼118会议室分享了题为《基于神经网络的统计参数语音合成中的基频建模》的报告。中科大部分感兴趣的师生聆听了报告会。
报告主要关注基于神经网络的基频建模模型,并就此王鑫博士回答了三个关键的问题:1、许多语音合成后端使用普通神经网络来联合建模基频和其他谱特征,这一点是否合适?2、一个普通的基于神经网络的基频模型是否忽略了基频内含的时间相关性?如果是,一个模型如何才能够学习到它们之间的相互关系?3、一个基于神经网络的基频模型逐帧处理语言特征是否是高效的?如果不是,该如何设计一个更高效、更易于解释的模型?
接着,王鑫博士还就此介绍了一些用于解释或解决这些问题的基于神经网络的基频建模模型,如浅度自回归(SAR)基频模型、深度自回归(DAR)基频模型,结合变分自编码器(VQ-VAE)的深度自回归基频模型等。
本次报告在充分地交流中圆满结束。
Xin Wang is a postdoc researcher, National Institute of Informatics, Japan. He received his Ph.D. degree from the same institute in 2018. During his Ph.D., he mainly worked on neural-network-based statistical parametric speech synthesis. Before that, he received the M.S. degree from NELSLIP, University of Science and Technology of China in 2015 for his work on HMM-based speech synthesis. He is also one of the organizers of the 3rd spoofing speech detection challenge ASVSpoof 2019.