语音情感计算及多模态交互

主要开展计算机视觉、语音可视化、生物特征识别、情感计算、多源图像融合与处理以及智能机器人等方面的研究。研究室现有教授1人、副教授1人、副研究员1人、讲师1人。其中汪增福教授主要从事视听觉信息处理、模式识别、情感计算以及智能机器人等方面的研究工作,郑志刚讲师的主要研究方向为立体视觉和三维场景重建,曹洋副教授的主要研究方向为计算机视觉和图像增强,於俊副研究员的主要研究方向为智能交互及情感人脸动画合成。

到目前为止,研究室承担了包括国家自然科学基金项目、863项目、科技部ITER专项课题、中科院创新工程重要方向性项目、安徽省科技攻关项目等在内的科研项目20余项,并与中国社会科学院语言研究所、微软亚洲研究院、英特尔(中国)、华为和讯飞等众多研究机构和企业开展合作,致力于科研成果的转化。

研究室已在IEEE Transactions、ACM Transactions、Information Fusion、CVPR、IJCAI、ACM MM、ECCV、ICIP、ICPR、ICASSP、ICME、计算机学报、自动化学报、电子学报、软件学报等国内外著名学术期刊和重要国际学术会议上发表论文300余篇。


学术带头人

头像
汪增福

1960年7月生,博士,中国科学技术大学自动化系教授、中国科学院合肥智能机械研究所研究员, 博士生导师。

1982年1月中国科学技术大学无线电电子学系信息与系统专业本科毕业,获工学学士学位;1984年9月南京第14研究所通信与电子工程专业硕士课程毕业,获工学硕士学位;1992年6月日本大阪大学控制工程专业博士课程毕业,获工学博士学位。

历任中国科学技术大学信息学院自动化系主任、中国科学院合肥智能机械研究所所长、第九届《自动化学报》编委等职。

现任中国人工智能学会理事、中国人工智能学会生物信息处理及人工生命专业委员会副主任、安徽省人工智能学会副理事长、《模式识别与人工智能》杂志编委等职。

主持包括科技部ITER专项课题、国家自然科学基金面上项目、863项目、中科院创新工程重要方向性项目、安徽省科技攻关项目、企业委托项目等在内的项目或课题10余项。研究方向为视听觉信息处理、模式识别、情感计算和智能机器人。


师资队伍

头像
郑志刚

博士,中国科学技术大学自动化系讲师。研究方向为计算机视觉、模式识别和智能机器人。获国家发明专利1项,发表论文10余篇。主持国际热核聚变实验堆(ITER)计划专项子课题1项,参与国家863计划项目、中国科学院知识创新工程重要方向项目、国家自然科学基金项目、企业委托项目等多项。

头像
曹洋

博士,中国科学技术大学自动化系副教授。研究方向为计算机视觉、多媒体计算和智能机器人。已在国内外著名期刊和会议上发表论文40余篇。主持国家自然科学基金项目2项,微软国际交流合作计划项目1项。

头像
於俊

博士,中国科学技术大学自动化系特任副研究员。研究方向为人机情感交互、计算机视觉、计算机图形学和语音可视化。已在国内外著名期刊和会议上发表论文40余篇。主持国家自然科学基金、中国博士后科学基金和中央高校基本科研业务费专项资金青年创新基金项目等4项。


主要科研项目

    • 中央高校基本科研业务费专项资金重要方向培育基金,面向人机交互的图像识别关键技术研究;

    • 国家自然科学基金面上项目,“能说会唱的三维虚拟人头:语音、歌声和情感语义同步的人脸及发音器官可视化研究”;

    • 国家自然科学基金面上项目,“语音及情感语义同步的三维人脸可视化:从发声器官到外观”;

    • 国家自然科学基金面上项目,“具有3D空间辨识力的视觉显著计算模型研究”;

    • 国家自然科学基金面上青年科学基金项目,“语音同步高真实感三维人脸情感动画研究”;

    • 国家自然科学基金面上项目,“基于立体图对的高真实感人脸三维建模与识别”;

    • ITER专项课题,“视觉采集与场景建模关键技术研究”;

    • 安徽省语音专项,“具备友好互动能力的情感感知和情感自然表达关键技术与系统”;

    • 中科院合肥物质科学研究院院长基金,“核遥操纵机器人概念系统的研制与实验验证”;

    • 社科院语言所委托项目,“基于3D人脸动画技术的文本及语音驱动可视化发音词典系统”;

    • 国家自然科学基金面上青年科学基金项目,“基于单眼线索的自然场景深度重建”;

    • 中国博士后科学基金,“极低码率2D/3D人脸视频编解码研究”。


主要成就

    • 对立体视觉问题有独到研究,自主研发了一种基于区域间协同优化的立体匹配算法。该算法的测评结果在国际公认的立体视觉算法测评权威网站Middlebury上名列前茅。

    • 构建了国内首个可实时运行的、包含3D人脸、3D头发、2D背景的模型基人脸视频编解码系统,并据此实现了中、英文文本和语音驱动的高真实感3D虚拟播音员系统。

    • 面向汉语教学应用,通过对发音器官和人脸表观的联合建模,实际构建了面向3D可视化中文发音的多模态发音模型及词典系统,实现了中文文本实时驱动、情感语音同步的人脸动画和3D发音器官动作序列。

    • 对联合彩色和深度信息的图像超分辨率重建技术和图像增强技术有深入研究,并取得了较大进展。

    • 对人脸识别、人脸情感动画合成、情感语音合成和语音情感识别有浓厚兴趣,在实验室范围内大面积开展了相关研究工作,取得了较大进展。 

    • 对智能机器人有深入研究,实际研发了月球车视觉子系统、视觉主导自主控制四旋翼飞行机器人以及多关节蛇形遥操纵机器人等系统,为后续开展实际应用奠定了基础。


论文及专利获奖情况

    近5年来,已在国内外学术刊物上发表了一批高水平论文。其中,在IEEE Transactions、ACM Transactions、计算机学报、自动化学报、电子学报、软件学报等国内外核心期刊和CVPR、ECCV、ICIP、ICPR、ICASSP、ICME等重要国际会议上发表学术论文300余篇。申请中国国家发明专利43项,已获授权34项。


人才培养情况

已培养博士后8人,博士40余人,各类硕士80余人。其中多人获得中国科学院院长奖、国家奖学金等各种奖项。本研究室培养了不少高端人才,在国外担任助理教授以上教职者超过6人、在国内大学和科研单位获正高级职称者超过5人。在企业工作的毕业生主要分布在华为、科大讯飞等知名企业。