艾杨老师分享参加Interspeech2024国际学术会议的相关报告
发布时间:2024-09-26

2024年9月26日下午16:30,我实验室艾杨特任副研究员在中国科学技术大学高新校区信智楼A507会议室作分享参加Interspeech2024国际学术会议的相关报告,报告题目是Spectrum-Coding-Based High-Fidelity and High-Compression-Rate Neural Audio Codec。实验室师生现场观看了报告。

Interspeech是由国际语音通信协会(ISCA)组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会。艾杨老师在本次Interspeech2024会议中宣讲了团队在音频编解码领域的部分研究成果。在本次报告中,艾杨老师系统地介绍了团队近半年来在基于谱编码的高质量高压缩率神经网络音频编解码器方面取得的研究成果。首先,艾杨老师向大家详细介绍了团队提出的基于幅度和相位谱平行编码和解码的音频编解码器APCodec,并通过大量实验分析向大家证实该模型相比基于波形编码和解码的音频编解码器在压缩率、生成效率以及模型复杂度等方面的优势。随后,艾杨老师向大家简要介绍了在APCodec之后的相关工作,包括引入分阶段训练策略以进一步改进APCodec的性能、结合频带拓展模型实现APCodec在极低码率场景中的应用,以及尝试在修正的离散余弦变换谱域进行编码和解码,构造更加轻量化和效率更高的音频编解码模型MDCTCodec。最后,艾杨老师做了总结,并对未来在音频编解码方面的研究做了展望。

报告结束后,现场师生就报告的相关问题和艾杨老师进行了互动交流。

该报告的研究成果得到了国家自然科学基金青年项目、安徽省自然科学基金青年项目以及中国科学技术大学青年创新基金的资助。此外,艾杨老师参加Interspeech2024国际学术会议也得到了中央高校基本科研业务费专项资金的资助。





报告现场照片


会议现场照片