智能语音信息处理团队15篇论文被语音技术顶会Interspeech 2022接收
发布时间:2022-07-07


近日,Interspeech 2022会议发出了审稿结果通知,语音及语言信息处理国家工程研究中心智能语音信息处理团队共15篇论文被会议接收,论文方向涵盖语音识别、语音合成、话者识别、语音增强、情感识别、声音事件检测等,各接收论文简介见后文。

Interspeech是由国际语音通信协会(ISCA)组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会。本届会议以“Human and Humanizing Speech Technology”为主题,内容涵盖语音识别、语音合成、语音增强、自然语言处理等多个领域。

语音及语言信息处理国家工程实验室于2011年由国家发改委正式批准成立,由中国科学技术大学和科大讯飞股份有限公司联合共建,是我国语音产业界唯一的国家级研究开发平台。2021年底,实验室通过国家发改委的优化整合评估,成功纳入新序列,并转建为语音及语言信息处理国家工程中心。

1.jpg

 

1.      Pronunciation Dictionary-Free Multilingual Speech Synthesis by Combining Unsupervised and Supervised Phonetic Representations

论文作者:刘畅,凌震华,陈凌辉

论文单位:中国科学技术大学,科大讯飞

论文简介:

1657242849289087.png

本文提出了一种结合无监督发音表征(unsupervised phonetic representations,UPR)和有监督发音表征(supervised phonetic representations,SPR)的多语种语音合成方法,以避免对目标语种的发音词典的依赖。在该方法中,我们采用预训练的 wav2vec 2.0 模型提取 UPR,并构建了一个使用CTC (connectionist temporal classification) 损失的语种无关的自动语音识别 (language-independent automatic speech recognition,LI-ASR) 模型从目标语种的音频数据中提取段级别的SPR。然后,我们设计了一个声学模型,首先分别从文本中预测UPR和SPR,然后结合预测的UPR和SPR生成梅尔谱。 在六个语种上的实验结果表明,所提出的方法优于直接从字符或音素序列预测梅尔谱的方法以及仅使用UPR或SPR的消融模型。

论文资源:论文预印版下载地址https://arxiv.org/abs/2206.00951

 

2.      Integrating Discrete Word-Level Style Variations into Non-Autoregressive Acoustic Models for Speech Synthesis

论文作者:刘朝辞,吴宁谦,张雅洁,凌震华

论文单位:中国科学技术大学

论文简介:

1657242889447315.png

本文提出了一种将词级风格变化(WSV)整合到非自回归的TTS声学模型中的方法。WSV是从单词的声学特征中提取的离散的潜在表征,我们在以前的工作中提出这种表征,提高了Tacotron2模型的自然度。在本文中,我们将WSV整合到一个非自回归声学模型FastSpeech2。在WSV提取器中,引入了Gumbel-Sigmoid激活函数,并通过实验与原来的Gumbel-Softmax激活进行了比较。WSV预测器利用了BERT提供的词嵌入,具有非自回归结构,以便与FastSpeech2兼容。实验结果表明,与FastSpeech2基线和使用Gumbel-Softmax激活的方法相比,我们提出的带有Gumbel-Sigmoid激活的方法在F0预测上取得了更好的客观性能。我们提出的模型的主观表现也明显优于FastSpeech2的基线。

论文资源:Demo语音网页 https://ttsbylzc.github.io/demo (或扫描下方二维码)

1657242908483203.png

 

3.      Decoupled Pronunciation and Prosody Modeling in Meta-Learning-Based Multilingual Speech Synthesis

论文作者:彭宇坤,凌震华

论文单位:中国科学技术大学

论文简介:

1657242927326051.png

本文提出了一种解耦发音和韵律建模的方法,以提高基于元学习的多语言语音合成的性能。 基线元学习合成方法采用单个文本编码器和一个以语言嵌入为条件的参数生成器和一个解码器来预测所有语言的梅尔谱图。 相比之下,我们提出的方法设计了一个双流模型结构,其中包含两个编码器和两个解码器,分别用于发音和韵律建模,充分考虑到发音知识和韵律知识应该以不同的方式在语言之间共享。 在我们的实验中,与基线元学习合成方法相比,我们提出的方法有效地提高了多语言语音合成的可懂度和自然度。

论文资源:Demo语音网页 https://pengyuk.github.io/dppmttsdemo

 

4.      Differential Time-frequency Log-mel Spectrogram Features for Vision Transformer Based Infant Cry Recognition

论文作者:徐海涛, 张结, 戴礼荣

论文单位:中国科学技术大学,中国科学院声学研究所声场声信息国家重点实验室

论文简介:

1657242948118367.png

哭泣是婴儿与外界交流的主要方式。分析哭声不仅可以识别婴儿想要表达的需求和想法,还可以预测潜在的疾病。通常,从婴儿哭声中识别特殊需求和情绪比成人语音要困难得多,因为婴儿哭声不包含任何语言信息,情感表达不如成人丰富。在这项工作中,我们专注于婴儿哭声信号的时频特性,并提出了一种基于Vision Transformer(ViT)的时频差分对数梅尔频谱特征婴儿哭声识别方法。我们首先计算婴儿哭声的对数梅尔频谱并分别计算该对数梅尔频谱在时间维度和频率维度上的差分,然后将对数梅尔频谱和差分后的特征组合为三维特征并将其输入ViT模型以进行哭声分类。在 CRIED 数据集上的实验结果表明,所提出的系统优于之前的SOTA。此外,提出的方法也在自有数据集上得到了进一步验证。

 

5.      External Text Based Data Augmentation for Low-Resource Speech Recognition in the Constrained Condition of OpenASR21 Challenge

论文作者:钟国龙,宋鸿宇,王若愚,孙磊,刘迪源,潘嘉,方昕,杜俊,张结,戴礼荣

论文单位:中国科学技术大学,科大讯飞

论文简介:

1657242966126324.png

本文介绍了提交到OpenASR21挑战赛的受限赛道的USTC-NELSLIP系统。受限赛道只允许10小时的语音数据集进行训练,而额外的文本数据是不受限的。为了提高低资源下的语音识别性能,我们收集了外部文本数据进行语言建模,并训练一个文本到语音(TTS)模型来生成语音-文本配对数据。我们的系统建立在传统的混合DNN-HMM框架上。我们训练了不同结构的模型,还探索了不同的数据增强方式。最终的系统是各种子系统的组合,通过系统融合得到最终结果。在OpenASR21挑战赛上的实验表明,我们提出的系统在所有测试语言中都达到了最佳性能。

 

6.      A Complementary Joint Training Approach Using Unpaired Speech and Text for Low-Resource Automatic Speech Recognition

论文作者:杜叶倩,张结,朱秋实,戴礼荣,吴明辉,方昕,杨周旺

论文单位:中国科学技术大学,科大讯飞

论文简介:

1657242979541727.png

非成对数据已被证明有利于低资源自动语音识别(ASR),它可以被用于多任务训练的混合模型设计或依赖语言模型的预训练。在本工作中,我们利用非成对数据来训练一个通用的序列到序列模型。非成对的语音和文本以数据对的形式使用,在模型训练之前生成相应的缺失部分。受到语音-伪标签对和合成音频-文本对在声学特征和语言特征方面的互补性的启发,我们提出了一种互补的联合训练(CJT)方法,用两种数据对交替训练模型。此外,我们还提出了对伪标签的标签掩码和对合成音频的梯度限制两种策略,以进一步应对与真实数据的偏差,这一方法称为CJT++。实验结果表明,与纯语音训练相比所提出的CJT在两种测试集上都取得了明显的性能提升,而CJT++的再训能进一步提升性能。在同等情况下,我们提出的方法优于wav2vec2.0模型,尤其是在极端低资源的场景下。

论文资源:论文预印版下载地址https://arxiv.org/abs/2204.02023(或扫描下方二维码)

1657242996352473.png

 

7.      Audio-Visual Speech Recognition in MISP2021 Challenge: Dataset Release and Deep Analysis

论文作者:陈航, 杜俊, 代宇盛, 李锦辉, Sabato Marco Siniscalchi, Shinji Watanabe, Odette Scharenborg, 陈景东, 殷保才, 潘嘉

论文单位:中国科学技术大学,佐治亚理工学院,卡内基梅隆大学,恩纳大学,代尔夫特理工大学,西北工业大学,科大讯飞

论文简介:

1657243014113001.png

我们向音视频语音研究社区发布了更新后的MISP2021 挑战赛的视听语音识别 (AVSR) 语料库,这是一个由远/中/近麦克风和远/中摄像头在34个真实家庭电视房中收集的 141 小时音频和视频数据组成的大型视听中文会话语料库。据我们所知,我们的语料库是第一个远程多麦克风会话汉语视听语料库,也是第一个在家居电视场景下的大词汇量连续汉语唇读数据集。此外,我们对语料库进行了深入分析,并对纯音频/纯视频/视听系统中的所有音频和视频数据进行了全面的消融研究。错误分析表明,视频模态补充了被噪声退化的声学信息,以减少删除错误,并在重叠语音中提供判别信息, 以减少替换错误。最后, 我们还尝试了新颖的前端、数据增强和端到端模型, 为未来工作提供了方向。

论文资源:数据库下载地址: https://challenge.xfyun.cn/misp_dataset (或扫描下方二维码)

1657243278575291.png

代码开源地址: https://github.com/mispchallenge/MISP2021-AVSR (或扫描下方二维码)

1657243292296058.png

8.      End-to-End Audio-Visual Neural Speaker Diarization

论文作者:何茂奎,杜俊,李锦辉

论文单位:中国科学技术大学,佐治亚理工学院

论文简介:

1657243089757144.png

本文提出了一种基于端到端神经网络的音视频说话人日志方法。该音视频模型采用音频特征(例如 FBANK)、多说话人唇型(ROI)和多说话人 i-vector向量作为多模态输入。同时输出多个说话者的帧级语音/非语音后验概率。通过精心设计的端到端结构,所提出的方法可以很好处理重叠语音问题,并通过多模态信息准确地区分语音和非语音。 i-vector是解决由视觉模态错误(例如唇部遮挡或检测不可靠)引起的音视频同步问题的关键点。该音视频模型对视觉模态缺失同样具有鲁棒性。我们在MISP数据集上进行了评估,所提出的方法在的开发/测试集上实现了 10.1%/9.5% 的分类错误率 (DER),而纯音频和纯视频系统的 DER 分别为 27.9%/29.0% 和 14.6%/13.1%。

 

9.      Deep Segment Model for Acoustic Scene Classification

论文作者:王雅健,杜俊,陈航,王青,李锦辉

论文单位:中国科学技术大学,佐治亚理工学院

论文简介:

1657243101100147.png

在大多数最先进的声场景分类技术中,卷积神经网络因其在学习局部深层特征方面具有独特的优越性能而被采用。然而,基于CNN的方法无法有效学习音频中声音事件的结构信息,一些音频片段是区分具有相似特征的声学场景的关键元素,而基于声学片段模型(Acoustic Segment Model,ASM)的方法在这方面显示出其优越性。为了充分利用这两种方法,我们提出了一种新的深层分段模型(Deep Segment Model,DSM)。深层分段模型采用完全卷积神经网络(Fully Convolutional Neural Network,FCNN)作为深度特征抽取器,然后引导ASM更好地捕获声音事件之间的语义信息。特别地,我们采用基于FCNN的编码器通过对三个粗粒度声学场景和十个细粒度声学场景进行分类的多任务训练,以提取多层次的声学特征。此外,还设计了一种基于熵的决策融合策略,以进一步利用基于FCNN和DSM系统的互补性。最终系统在DCASE2021 Task1b音频数据集中的精度达到80.4%,与基于FCNN的系统相比,相对错误率降低约15%。

 

10.      Online Speaker Diarization with Core Samples Selection

论文作者:岳颜颜,杜俊,何茂奎,杨宇庭,王仁宇

论文单位:中国科学技术大学,华为诺亚实验室

论文简介:

1657243114124318.png

在本文中,我们提出了一个在线说话人日志系统,可以高效地处理长时间音频。为了充分利用在离线说话人日志任务中表现较好的VBx算法,我们以分块处理方式执行在线聚类。特别地,我们设计了一种基于时间惩罚项的核心样本选择策略,该策略可以以较低的存储成本保留重要的历史信息。通过类似分层抽样的方式从核心样本中选择聚类样本,在保留了充分的说话人身份信息的同时,增强了样本之间的差异性,有助于VBx在少量数据上分类性能的提高。另外,我们通过全局约束聚类算法解决了标签模糊问题。在DIHARD和AMI数据集上的实验验证了所提方法的有效性。

 

11.      Audio-Visual Wake Word Spotting in MISP2021 Challenge: Dataset Release and Deep Analysis

论文作者:周恒顺,杜俊,邹恭振,念朝旭,李锦辉,Sabato Marco Siniscalchi,Shinji Watanabe,Odette Scharenborg,陈景东,熊世富,高建清

论文单位:中国科学技术大学,佐治亚理工学院,卡内基梅隆大学,恩纳大学,代尔夫特理工大学,西北工业大学,科大讯飞

论文简介:

1657243136119004.png

在本文中,我们描述并公开发布在MISP2021挑战中更新后的音视频唤醒数据库。该数据库涵盖了一系列场景下由近场、中场、远场麦克风阵列和摄像机收集的超过120个小时的视听中文语料数据,以创建一个公开、共享的音视频唤醒数据库。该数据库和代码已经开源,将对真实复杂环境下使用多模态信息促进唤醒研究是一个非常有价值的补充。此外,我们还研究了基于端到端网络的单模态唤醒任务上不同的数据增强方法,并进行了一系列音视频融合实验和分析,以观察不同音频和视频场景配置下视觉信息对声学信息的辅助作用。

论文资源:数据库下载地址: https://challenge.xfyun.cn/misp_dataset(或扫描下方二维码)

1657243157102906.png

代码开源地址: https://github.com/mispchallenge/MISP2021-AVWWS (或扫描下方二维码)

1657243171714585.png

 

12.      Acoustic Feature Shuffling Network for Text-Independent Speaker Verification

论文作者:李晋,方昕,褚繁,高天,宋彦,戴礼荣

论文单位:中国科学技术大学,科大讯飞

论文简介:

1657243187277339.png

深度嵌入学习(Deep Embedding Learning)是目前文本无关的说话人确认(Text-Independent Speaker Verification)研究领域中的主流技术方法。与传统的i-vector方法相比,现有方法主要专注于帧级特征提取方法、特征池化和聚合方法,以及目标损失函数的设计,从而学习有效的说话人表征向量。在局部帧级特征提取中,如果打乱输入音频的语序,生成的说话人表征向量将会有所不同。相反,传统的i-vector方法是音频语序不敏感的。在本文中,我们提出了一种声学特征随机扰乱的网络结构,通过联合学习的方式,获得对语序不敏感的说话人表征向量。具体来说,首先用多种时长尺度对音频特征进行分段,然后针对每个时长尺度下的音频特征片段进行随机扰乱,再拼接成和原始音频特征时长一致的音频特征;其次,将原始的音频特征和拼接的音频特征分别送入相似的两个神经网络中;最后,在原有目标损失函数的基础上,增加一个KL(Kullback-Leibler)散度损失函数,共同驱动模型训练。基准Voxceleb语料库上的实验结果表明,本文提出的声学特征随机扰乱网络结构的有效性。

 

13.      Class-Aware Distribution Alignment based Unsupervised Domain Adaptation for Speaker Verification

论文作者:胡航瑞,宋彦,戴礼荣,Ian McLoughliln,柳林

论文单位:中国科学技术大学,新加坡理工大学,科大讯飞

论文简介:

1657243203111921.png

现有的说话人识别系统在应用到与训练环境不一致的目标域时,通常会出现严重的性能下降。给定无标记的目标域数据集,现有的无监督域自适应方法往往通过减少不同域数据的分布差异来改善此问题,然而这类全局分布对齐策略忽视了目标域的潜在标签信息从而难以保证其判别性有所提升。对此,本文提出了WBDA(类内和类间分布对齐)策略,以更充分的将源域良好的度量性质传递到目标域。首先受近期的自监督对比学习工作启发,分别在各自域内进行正负例对构造,然后通过源域分类损失以及类别层面的跨域分布差异损失进行联合训练。所提方法在NIST SRE16和SRE18上取得了43.7%和26.2%的相对基线提升,显著优于目前主流的全局分布对齐方法。

 

14.      Deep Speaker Embedding with Frame-Constrained Training Strategy for Speaker Verification

论文作者:古斌

论文单位:中国科学技术大学

论文简介:

1657243221955391.jpg

语音信号中除了声纹信息之外,还包含大量的附加信息(例如文本内容、重音等),这些语音的变异性对说话人特征建模带来了巨大的挑战。 为了缓解这一问题,本文提出了一种新的帧约束训练(FCT)策略,该策略在语音帧级别进一步增强说话人信息,以便更好地在语音段级别提取说话人特征。具体来说,该方法根据每批训练样本之间的帧级特征计算相似度矩阵,通过相似度矩阵得到FCT损失, 然后结合FCT损失和说话人分类损失对说话人嵌入网络进行训练。 实验在VoxCeleb1和VOiCES数据库上进行,结果表明,所提出的训练策略可以提高系统的性能。

 

15.      An Improved Deliberation Network with Text Pre-training for Code-Switching Automatic Speech Recognition

论文作者:沈之杰,郭武

论文单位:中国科学技术大学

论文简介:

1657243237564921.jpg

本文提出了一种改进的推敲网络(DN),用于端到端语码转换(CS)自动语音识别(ASR)。在传统的 DN 中,声学编码和首次识别结果编码是分开使用的,只是通过求和的方式组合在一起,不能充分利用它们潜在的互补性。因此,所提出的改进的DN模型通过两阶段的过程利用了两种编码之间的关系。首先,通过共享编码器将两种编码整合到统一的语义空间中;其次,在最终解码过程之前,通过注意力机制从声学编码中捕获相关信息。此外,成对训练数据的缺乏限制了模型在 CS ASR 中的泛化能力。为了解决这个问题,提出基于去噪序列到序列目标使用未成对的文本数据对DN进行预训练。在汉英CS数据集上的实验证明了该方法的有效性。与传统的 DN 相比,观察到相对错误率降低了13.5%。