语音及语言信息处理国家工程研究中心

学术带头人

师资队伍

於俊

中国科学技术大学自动化系副教授/博导、博士、华为最具价值教师、华为/昇思开发者双认证布道师。

研究方向为多媒体计算与智能机器人。主持科研项目39项，包括国家自然科学基金5项、国家航空科学基金1项、军科委前沿创新基金1项；主导形成系列模型套件并已进入华为计算产品线；发表国际学术论著200余篇，主要包括一作/通讯IEEE(ACM) TOP汇刊/CCF-A类国际顶会/SCI一区期刊论文100余篇；第1完成人荣获国际顶会最佳论文奖6项、国际顶会AI挑战赛冠军100余项、安徽省人工智能科技进步一等奖、中国人工智能学会-华为昇思MindSpore学术奖励基金结题优秀奖励(2项)、网易“卓越教师”奖、华为昇思MindSpore“卓越指导教师”奖、教育部-华为“智能基座”栋梁之师奖、中科院王宽诚育才奖、中国科大兴业证券教育奖；第2完成人荣获安徽省自然科学二等奖、安徽省教学成果一等奖(3项)；第1发明人授权专利20余项；长期担任多个国际顶会SPC Member、华为昇思MindSpore技术委员会委员；作为唯一指导教师荣获世界机器人大赛冠军(2项)、“挑战杯”科技竞赛-揭榜挂帅专项赛-国赛一等奖、华为昇腾AI创新大赛金奖、华为昇思MindSpore杰出开发者(2名)；主持《计算机视觉与模式识别》等教育部-华为产学合作协同育人/省质量工程项目6项；主编8部教材，其中2部获华为ICT优秀教材奖。

曹洋

博士，中国科学技术大学自动化系副教授。研究方向为计算机视觉、多媒体计算和智能机器人。已在国内外著名期刊和会议上发表论文40余篇。主持国家自然科学基金项目2项，微软国际交流合作计划项目1项。

主要科研项目

中央高校基本科研业务费专项资金重要方向培育基金，面向人机交互的图像识别关键技术研究；
国家自然科学基金面上项目，“能说会唱的三维虚拟人头：语音、歌声和情感语义同步的人脸及发音器官可视化研究”；
国家自然科学基金面上项目，“语音及情感语义同步的三维人脸可视化：从发声器官到外观”；
国家自然科学基金面上项目，“具有3D空间辨识力的视觉显著计算模型研究”；
国家自然科学基金面上青年科学基金项目，“语音同步高真实感三维人脸情感动画研究”；
国家自然科学基金面上项目，“基于立体图对的高真实感人脸三维建模与识别”；
ITER专项课题，“视觉采集与场景建模关键技术研究”；
安徽省语音专项，“具备友好互动能力的情感感知和情感自然表达关键技术与系统”；
中科院合肥物质科学研究院院长基金，“核遥操纵机器人概念系统的研制与实验验证”；
社科院语言所委托项目，“基于3D人脸动画技术的文本及语音驱动可视化发音词典系统”；
国家自然科学基金面上青年科学基金项目，“基于单眼线索的自然场景深度重建”；
中国博士后科学基金，“极低码率2D/3D人脸视频编解码研究”。

主要成就

对立体视觉问题有独到研究，自主研发了一种基于区域间协同优化的立体匹配算法。该算法的测评结果在国际公认的立体视觉算法测评权威网站Middlebury上名列前茅。
构建了国内首个可实时运行的、包含3D人脸、3D头发、2D背景的模型基人脸视频编解码系统，并据此实现了中、英文文本和语音驱动的高真实感3D虚拟播音员系统。
面向汉语教学应用，通过对发音器官和人脸表观的联合建模，实际构建了面向3D可视化中文发音的多模态发音模型及词典系统，实现了中文文本实时驱动、情感语音同步的人脸动画和3D发音器官动作序列。
对联合彩色和深度信息的图像超分辨率重建技术和图像增强技术有深入研究，并取得了较大进展。
对人脸识别、人脸情感动画合成、情感语音合成和语音情感识别有浓厚兴趣，在实验室范围内大面积开展了相关研究工作，取得了较大进展。
对智能机器人有深入研究，实际研发了月球车视觉子系统、视觉主导自主控制四旋翼飞行机器人以及多关节蛇形遥操纵机器人等系统，为后续开展实际应用奠定了基础。

论文及专利获奖情况

近5年来，已在国内外学术刊物上发表了一批高水平论文。其中，在IEEE Transactions、ACM Transactions、计算机学报、自动化学报、电子学报、软件学报等国内外核心期刊和CVPR、ECCV、ICIP、ICPR、ICASSP、ICME等重要国际会议上发表学术论文300余篇。申请中国国家发明专利43项，已获授权34项。

人才培养情况