遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Grokking

探索深度学习中的“顿悟”(Grokking) 现象。了解 Ultralytics YOLO26 模型在长时间训练过程中如何从记忆转向泛化。

Grokking 是深度学习中一个迷人的现象,指神经网络在训练了非常长的时间后——通常是在看起来已经对训练数据过拟合很久之后——验证准确率突然出现大幅提升。与性能逐渐提升的标准学习曲线不同,Grokking 涉及一种“相变”,模型从记忆特定示例转变为理解可推广的模式。这一概念挑战了传统的“早停”智慧,表明对于某些复杂任务,特别是在 large language models (LLMs) 和算法推理中,坚持训练是解锁真正智能的关键。

Link to this sectionGrokking 的阶段#

Grokking 的过程通常分为两个不同的阶段,这可能会让依赖标准 experiment tracking 指标的从业者感到困惑。最初,模型会迅速最小化 training data 上的损失,而 validation data 上的性能依然很差或处于停滞状态。这会产生较大的泛化差距,通常被解释为 overfitting。然而,如果训练在此点之后持续相当长的时间,网络最终会“领悟”(grok) 底层结构,导致验证损失骤降,准确率飙升。

最近的研究表明,这种延迟泛化发生是因为 neural network 首先学习的是“快速”但脆弱的相关性(记忆),随后才发现“缓慢”但稳健的特征(泛化)。这种行为与 loss function 景观的几何形状和优化动力学密切相关,正如 OpenAI 和 Google DeepMind 研究人员的论文中所探讨的那样。

Link to this sectionGrokking 与过拟合#

将 Grokking 与标准过拟合区分开来至关重要,因为它们在早期阶段表现相似,但结果却截然不同。

  • 过拟合: 模型记忆了训练集中的噪声。随着训练的进行,验证误差会增加且永远不会恢复。标准的 regularization 技术或提早停止训练是通常的补救措施。
  • Grokking: 模型最初会进行记忆,但最终会重构其内部的 model weights 以找到更简单、更通用的解决方案。在长时间的停滞之后,验证误差会显著下降。

在训练像 Ultralytics YOLO26 这样的现代架构时,理解这种区别至关重要,因为可能需要禁用早停机制,以便在复杂的、模式密集的数据集上榨取最大性能。

Link to this section实际应用#

虽然最初是在小型算法数据集中观察到的,但 Grokking 对实际的 AI 开发具有重大影响。

  • 算法推理: 在需要逻辑推导或数学运算(如模加法)的任务中,模型通常在经历 Grokking 阶段之前无法泛化。这对于开发能够解决多步问题而不仅仅是模仿文本的 reasoning models 至关重要。
  • 紧凑模型训练: 为了创建高效的 edge AI 模型,工程师通常会训练较小的网络更长时间。Grokking 允许这些紧凑模型学习数据的压缩、高效表示,这类似于 Ultralytics Platform 的效率目标。

Link to this section最佳实践与优化#

为了诱导 Grokking,研究人员通常会利用特定的优化策略。高 learning rates 和大量的 weight decay(一种 L2 正则化形式)被认为能够促进这种相变。此外,数据量也发挥了作用;当数据集大小恰好处于模型处理能力的阈值时,Grokking 最为明显,这一概念与 double descent 现象有关。

在使用像 PyTorch 这样的高性能库时,确保这些长期训练过程中的数值稳定性至关重要。该过程需要大量的计算资源,使得 Ultralytics Platform 上的高效训练流水线在管理长周期实验方面非常有价值。

Link to this section代码示例:启用长期训练#

为了允许潜在的 Grokking,通常必须绕过标准的早停机制。以下示例展示了如何配置一个 Ultralytics YOLO 训练运行,设置延长的轮数 (epochs) 并禁用耐心值 (patience),从而让模型有时间从记忆阶段过渡到泛化阶段。

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Train for extended epochs to facilitate grokking
# Setting patience=0 disables early stopping, allowing training to continue
# even if validation performance plateaus temporarily.
model.train(data="coco8.yaml", epochs=1000, patience=0, weight_decay=0.01)

Link to this section相关概念#

  • Double Descent 一个相关现象,即随着模型大小或数据增加,测试误差会先降低、再升高,然后再次降低。
  • Generalization 模型在未见过的数据上表现良好的能力,这是 Grokking 过程的最终目标。
  • Optimization Algorithms 用于导航损失景观并促进相变的方法(如 SGD 或 Adam)。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅