同济大学金博副教授和香港中文大学(深圳)李文浩博士来访语音工程研究中心 并做学术报告
发布时间:2023-08-30


2023828日下午,同济大学金博副教授和香港中文大学(深圳)李文浩博士受语音及语言信息处理国家工程研究中心杜俊副教授的邀请,在科大高新校信智楼楼C301会议室分别做了题为“去中心化多智能体强化学习”和“合作多智能体强化学习:理论、算法及应用”的精彩报告。本次报告由杜俊副教授主持,工程研究中心部分师生、科大讯飞相关工程师参加了报告会。


金博副教授首先以AlphaGo等竞技强化学习模型切入来介绍了强化学习的发展,引入了单智能体和多智能体的强化学习策略概念,并首先介绍了单智能体强化学习的相关概念,随后介绍了经典的演员-评论家(Actor-Critic)框架为例,引申至多智能体强化学习,并以其团队在在智慧农业,智慧医疗的调度为例说明了多智能体的诸多应用场景。

随后,金教授介绍了求解的经典框架CTDE,它把所有的信息汇聚,来统一地中心化地训练,这导致其可能会面临维度灾难、中央节点的缺失等问题,另外,传统中心化多智能体强化学习方法,在处理智能体间非交互性以及维度灾难等问题时具有局限性,且通常需要在智能体间传输大量信息才能处理完全协作任务。


针对这些问题,金教授介绍了其团队设计的最优化驱动的基于原始-对偶混合梯度下降方法的完全去中心化MARL 算法框架F2A2,它可以用于将非去中心化的模型更改为完全去中心化的模型,灵活实现了智能体的独立学习和分布式控制。



接着,李博士以多智能体强化学习的背景入手,介绍了单智能体强化学习算法的应用,包括机器人控制、运筹规划等,随后引入基于多个个体的自动驾驶、智慧物流等真实场景下的强化学习应用,说明了多智能体强化学习的是群体智能的重要研究方向

随后,李博士以博弈论研究的典型模型为例,说明超过90%的问题为合作问题,而随着智能体数目的增大,传统博弈论已经无法满足多智能体问题的求解需求,李博士进而介绍了合作问题的多智能体强化学习范式:中心化训练-去中心化执行,以及其面临的挑战:非平稳状态下的策略评估,也即多个智能体之间相互影响,造成了环境本身不断发生变化。


李博士将多智能体面临的问题整合为以下三个科学问题以及其对该问题的研究成果:

一、完全合作场景下的高精度策略评估:联合置信区域分解、动作空间表示学习以及结构化合作涌现

二、自利合作场景下的高可靠策略评估:承诺机制、以声誉系统为基础的算法框架、分层声誉驱动的合作多智能体强化学习方法,基于信息设计的合作多智能体强化学习方法

三、高维合作场景下的高保真策略优化:生成流网络、分层扩散模型、基于分层扩散模型的离线序列决策方法

李博士还介绍了多智能体强化学习在诸多民生领域的应用,包括智慧医疗、智慧农业,智慧仓储AGV路径规划等,并分享了自己关于强化学习未来发展的看法,包括基于预训练大模型的自省学习、情境强化学习等。


最后,金教授和李博士耐心地聆听与回答了在场师生的提问。本次报告会在探讨与掌声中圆满结束。






金博,博士,同济大学软件学院副教授,上海市自主智能无人系统科学中心可信人工智能研究所所长助理。主要研究方向为群体智能、深度强化学习理论算法及应用。主持与参与科技部科技人工智能2030专项、国家863项目、工信部产业技术基础公共服务平台项目、工信部人工智能产业创新任务揭榜挂帅、国家自然科学基金重点项目与青年项目、装发预研项目、上海市科委创新行动计划人工智能支撑项目与重点项目及企业合作十余项;已发表IEEE TPAMIIEEE TMIIEEETCJMLRCVPRICLRKDDWWWIJCASIGIRAAMASPR中国科学等顶级论文近60篇,发明专利20余项。2021年获中国商飞“大飞机奋斗者”荣誉称号。


李文浩博士毕业于华东师范大学,由周爱民教授和查宏远教授联合指导。李博士目前在机器学习顶级期刊JMLRTPAMITCYB以及会议ICLRICMLAAMASCVPRIJCAIKDDICRA上发表论文近20篇,主持博士后自然科学基金面上项目1;博士论文《合作促进多智能体强化学习》荣获上海市计算机学会评定的“2022年度优秀博文论文奖提名奖”。