西安交通大学丁宁教授来访中国科技大学并做学术报告
发布时间:2026-04-13

2026年4月10日,西安交通大学丁宁教授受中国科学技术大学信息学院杜俊教授的邀请,在中科大高新区信智C301会议室做了题为《大模型涌现能力的探索》的报告。中科大信息学院部分感兴趣的师生聆听了此次报告会。


报告会上,丁宁教授首先回顾了人工智能发展的重要里程碑,从早期的机器学习,到以ImageNet为代表的数据驱动范式,再到AlexNet、ResNet等深度学习模型的突破,直至如今以 ChatGPT 为代表的大模型时代,系统梳理了人工智能从传统方法迈向深度学习的演进脉络。

随后,丁教授从大模型的发展背景出发,介绍了“大模型涌现”的概念,并指出大模型训练流程通常包括预训练、微调与对齐等关键阶段,其中预训练尤为核心。然而,大模型预训练仍面临训练成本高昂以及对超参数高度依赖等挑战。围绕这些问题,丁教授分享了其团队的最新研究成果,Farseer与Step Law两项具有突破性的进展。

针对训练成本高的问题,丁教授先回顾了经典的Scaling Law和Chinchilla,并分析了它们的局限性。在此基础上,提出了一种新的LLM Scaling Law范式Farseer。该方法通过引入交互项,将数据效率建模为模型规模的函数,从而为大模型预训练提供动态指导;借助小规模实验精准外推大模型性能,显著降低试错成本与算力浪费。

针对超参数选择依赖性强的问题,丁教授进一步提出了最优超参数调优方法Step Law。与现有先进方法相比,其误差已降低至千分之一量级,显著优于以往接近百分之一的水平。丁教授从实验设置、拟合过程及泛化性等方面,对 Step Law 进行了系统讲解,展示了其在大模型超参数优化中的重要价值,有力推动了预训练过程的高效与稳定。

  最后,丁教授耐心聆听、解答了现场师生的提问。本次报告会在探讨与掌声中圆满结束。



【个人介绍】

丁宁,西安交通大学二级教授,博导,国家级高层次人才,国家重点研发计划首席科学家,分别于2005年和2008年在西安交通大学获得本科和硕士学位,2012年在日本庆应大学获得博士学位。博士毕业之后加入日本东芝株式会社,任研究员。2020年回国加入阿里巴巴集团,任算法总监。2023年加入西安交通大学人工智能学院。主要从事大模型、具身智能、人机交互等人工智能领域的研究工作,先后出版英文专著1部、教材1部,获得国际授权专利10余项,主持科技创新2030-“新一代人工智能”国家重大项目,基金委重大项目课题等。