设为首页 | 收藏本站欢迎来到海南凯发娱乐传媒网络科技有限公司!

已阅读

上海交大深度学习基础理论团队在机器学习顶刊TPAMI发表最新成果

作者:admin      来源:admin      发布时间:2024-03-01

  近日,上海交通大学自然科学研究院和数学科学学院的深度学习基础理论团队的许志钦及其学生张众望分析了神经网络中常用的Dropout(随机丢弃)方法的隐式正则化效应,发现其与该团队前期发现的参数凝聚现象有密切联系凯发一触即发。深度神经网络常常被称为“黑箱”凯发一触即发,该研究是理解深度神经网络的一个重要进展。研究成果Implicit Regularization of Dropout在机器学习和人工智能领域顶级期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)(IF:23.6)发表凯发一触即发。

  在神经网络训练中,为了提升泛化能力,Dropout是一种常用的正则化技术凯发一触即发凯发一触即发。Dropout是图灵奖得主Hinton组在2012年提出的凯发一触即发,在每一步训练中随机地丢弃部分神经元。为什么Dropout可以显著提升深度神经网络的泛化能力是一个重要但长期未被解决的问题。该问题的困难源于神经网络自身的高度非线性卡圈凯发一触即发凯发一触即发,以及Dropout算法本身的随机性凯发一触即发。面对这个难题凯发一触即发凯发一触即发,该团队从实验现象出发,将Dropout得到的解与凝聚现象及损失景观平坦性进行结合凯发一触即发凯发一触即发,从两个角度对Dropout方法提高解的泛化性能做出解释宽面法兰。

  具体而言凯发一触即发,这项工作首先提出了Dropout的一种隐式正则化的理论推导,并通过一系列实验进行验证。此外,这项工作发现并验证了使用Dropout训练时弹变空程额定寿命,神经元的输入权重倾向于在孤立的方向上凝聚。凝聚现象是深度学习基础理论团队发现的一个重要现象多股螺旋弹簧,该团队在凝聚现象方向有一系列的工作。凝聚现象是神经网络非线性学习过程中的一个普遍特征,它使网络的有效神经元数目远小于经元数目凯发一触即发凯发一触即发,从而使得高度复杂的神经网络在保证拟合数据的前提下凯发一触即发凯发一触即发,仍保持尽可能低的模型复杂度汽动滑板车。在前期的实验和理论工作中凯发一触即发凯发一触即发凯发一触即发,明显的参数凝聚现象均要求神经网络的参数初始化很小,但小初始化会使训练很慢。这项研究发现Dropout可以在全训练过程中促使神经网络趋于参数凝聚,并且不要求小初始化凯发一触即发,因此凯发一触即发凯发一触即发,在保持好泛化性的同时也不会遭受由于小初始化带来的训练慢的问题。其次凯发一触即发,该研究发现并验证了使用Dropout训练的神经网络与标准梯度下降训练相比保护电流密度,具有更平坦的最小值,而该团队发现的隐式正则化正是训练可以找到平坦解的关键凯发一触即发凯发一触即发。

  这项工作指出了Dropout与随机梯度下降相比的独特特性,并为充分理解Dropout提供了重要的基础。同时凯发一触即发凯发一触即发,这项工作将凝聚现象与平坦性两种独立概念通过Dropout方法进行联系,解释二者之间的相关性凯发一触即发。

  本工作的第一作者为张众望相图凯发一触即发,通讯作者为许志钦凯发一触即发。许志钦为交大自然科学研究院和数学科学学院双聘的长聘教轨副教授,也是交大致远学院首届2008级理科班的毕业生凯发一触即发。张众望是该团队三年级博士生环形弹簧,也是交大2017级致远荣誉计划数学方向的毕业生凯发一触即发。

  目前上海交通大学自然科学研究院和数学科学学院已经形成了一批从事深度学习基础研究的科研人员并发表了一系列相关工作。该团队主要有两个系列工作凯发一触即发,分别是频率原则和参数凝聚凯发一触即发凯发一触即发凯发一触即发。其中频率原则的论文获得2021世界人工智能大会青年优秀论文提名奖凯发一触即发,他们在关于两层无穷宽的ReLU网络的相图分析中发现参数凝聚现象,并发表在机器学习领域顶刊Journal of Machine Learning Research,他们发现的嵌入原则发表在机器学习领域顶会NeurIPS 2021并被录用为亮点论文等凯发一触即发。

  关于TPAMI:IEEE TPAMI是人工智能凯发一触即发、模式识别凯发一触即发凯发一触即发、计算机视觉等领域的国际顶尖期刊凯发一触即发凯发一触即发,2023年度最新发布影响因子为23.6凯发一触即发,是目前影响因子最高的CCF A类期刊凯发一触即发。该期刊谷歌指数(H-Index)在计算机科学和工程技术两个大类学科里均列首位。IEEE TPAMI以严苛的审稿过程凯发一触即发、深刻的理论分析著称凯发一触即发,在计算机科学与人工智能领域具有权威影响力凯发一触即发。

  该研究得到重点研发计划青年科学家项目2022YFA1008200、国家自然科学基金项目92270001、12371511凯发一触即发、上海市科技重大专项2021SHZDZX0102的支持凯发一触即发凯发一触即发,以及上海交通大学思源一号超算、数学科学学院超算中心和学生创新中心的支持凯发一触即发。