报告题目:深度学习的理论基础 : 梯度算法的优化、泛化与隐式偏差
报 告 人:李建 清华大学,教授,博导
报告地点:计算机楼313
报告华体会网页版登陆入口:2024年9月25日(周三),下午4点
报告简介:深度学习在应用中取得了巨大的成功,但是其相关理论基础研究相对滞后。深度神经网络的训练是一个高度非凸的优化问题,但是简单的随机梯度方法能够找到不仅最小化训练误差而且对未见数据展示出强大泛化能力。这种泛化能力是经典的机器学习理论无法解释的。近来,研究人员发现梯度方法可能不会收敛到一个稳定点,并且损失景观的锐度(Hessian的最大特征值)可能会波动并进入一个被称为稳定边缘的状态。这些行为与经典优化领域广泛采用几个假设不一致。梯度基算法在神经网络训练中引入了什么偏差?该偏差和对抗性样本的存在有什么关系?这些都是经典的优化理论和统计学习理论无法回答的问题。这些新的问题需要新的理论解释和数学基础。在这次报告中,我们从基于梯度优化方法的角度,通过解释和分析优化轨迹的行为,来切入深度学习中这些基础的理论问题,并从梯度方法的角度对以上问题进行分析与解释。
报告人简介:李建,清华大学交叉信息研究院长聘教授,博士生导师。研究方向为理论计算机科学、人工智能基础理论、数据库、金融科技。曾在主流国际会议和杂志上发表了100余篇论文,并获得了数据库顶级会议VLDB和欧洲算法年会ESA的最佳论文奖、数据库理论会议ICDT最佳新人奖、多篇论文入选口头报告或亮点论文。入选国家级青年人才计划。曾主持并参与了多项自然科学基金项目,以及多个企业合作项目包括百度、蚂蚁金服、今日头条、易方达、华泰证券等。