MIT斯坦福Transformer最新研究：过度训练会让中度模型“结构顿悟”

日期：2023-12-08 16:08:08 栏目：文章分享浏览：839 评论：58

12月8日消息:最新来自MIT和斯坦福的研究发现，过度训练可能导致中度模型产生“结构顿悟”，影响其性能。这一发现对于深度学习领域的模型优化和训练策略提出了新的思考。

MIT斯坦福Transformer最新研究：过度训练会让中度模型“结构顿悟”-第1张图片-Ceacer网络

论文地址:https://arxiv.org/pdf/2305.18741.pdf

然而，斯坦福和MIT的研究人员发现，通过对Transformer类模型进行长时间的训练，模型能够获得这种结构性的泛化能力。他们将这一现象命名为"结构顿悟"，形容为神经网络经历了一个"aha moment"，在训练的某一刻忽然实现了对层级结构的理解。这种现象的发生被证明在不同数据集上呈现出倒U形的深度缩放，中深度模型的泛化能力表现最佳。

研究进一步指出，提前停止训练会导致泛化性能被低估，而中度深度的Transformer模型在泛化到新结构输入时呈现出显著的优势。研究还分析了结构顿悟的内部属性，包括参数权重的L2norm、注意力稀疏性和模型的树结构性。结果显示，中度深度模型在这些属性上表现出最佳的结构顿悟，而权重范数和注意力稀疏性的动态变化与模型的泛化性能密切相关。

这项研究为理解神经序列模型的泛化机制提供了新的视角。通过揭示结构顿悟的存在，研究强调了模型深度与泛化性能之间的关系，并为改善自然语言处理模型的泛化能力提供了有价值的启示。这一发现有望在未来的深度学习研究中引起更多关注，为模型设计和训练策略提供指导。