2023年8月3日，英国萨里大学王文武教授受中国科学技术大学信息学院、语音及语言信息处理国家工程研究中心杜俊副教授的邀请，在中科大高新区信智楼C301会议室做了题为“Audio-Text Cross Modal Generation”（音频-文本交叉模态生成）的精彩报告。本次报告由杜俊副教授主持，中科大信息学院部分感兴趣的师生聆听了此次报告会。

报告会上，王文武教授介绍了四个目前热门且具有挑战性的音频-文本交叉模态任务，分别是声音识别、音频转文本、文本转音频和音频-文本学习。他逐一讲解了这些任务的问题描述、现有方法、目前仍存在的问题和他的团队所使用的方法。

针对声音识别任务，王教授介绍了一个用于音频模式识别的大规模预训练的音频神经网络框PANNs。这一框架可以从大量无标签数据中学习语音表示，可迁移至其他数据集，已经在多个比赛中取得了优异的成绩。

对于音频转文本任务，王教授介绍了其中一个应用场景——自动音频字幕制作（AAC），旨在根据音频片段生成自然语言描述。他列举了现有的一些解决该问题的框架，并提到了该任务目前存在的一些问题。接着他提出，可以使用基于条件生成式对抗网络（C-GAN）的音频字幕对抗训练框架，以鼓励多样性。另外，字幕特征空间正则化方法对模型性能也有正向提升。

接着，王教授介绍了他的团队在文本转音频任务上的杰出工作——AudioLDM。该模型的主要创新是直接端到端地生成原始语音波形，简化了流程，且生成质量显著提高，被广泛应用于制作相册、游戏和3D动画等。

对于音频-文本学习任务，王教授提出可以联系大型语言模型（LLMs）为音频语言多模态学习创建新数据集。此外，他还概括了其他音频/语音/音乐和图像/视频的相关工作。

最后，王教授展望了以上几个领域未来进一步工作和优化的方向，并耐心聆听、解答了现场师生的提问。本次报告会在探讨与掌声中圆满结束。

【个人介绍】

王文武教授现任英国萨里大学(University of Surrey)计算机科学学院教授。他于1990年获得英国斯特拉斯克莱德大学(University of Strathclyde)计算机科学博士学位，之后在多个著名大学和研究机构任教和从事研究工作，包括剑桥大学计算机实验室(University of Cambridge Computer Laboratory)、牛津大学计算机科学系(Department of Computer Science, University of Oxford)等。

王教授长期从事计算机视觉、机器学习和模式识别等领域的研究工作，在图像分割、目标跟踪、行为分析等方面有突出贡献。他发表了大量高水平论文，其中多篇发表在计算机视觉顶级期刊和会议上，如IJCV、CVPR、ECCV等，并拥有多个相关专利。他曾担任多个国际学术会议的组织委员会委员或区域主席，参与创办了视觉信息处理和传感国际会议(ICVISP)。

王教授不仅研究成果突出，在学术团队建设和人才培养方面也获得了良好的成效。他曾指导和培养了多名博士生，其中部分已经成为该领域的专家学者。他本人也获得了多个奖项，包括英国皇家工程院会士(FREng)、英国皇家学会会士(FRS)等荣誉。

王文武教授是计算机视觉和模式识别领域的权威学者和领军人物，在该领域做出了卓越的贡献。