了解 ImageNet,这是一个开创性的数据集,拥有超过 1400 万张图像,推动了计算机视觉的发展,为 AI 研究、模型和应用提供支持。
ImageNet是一个大型的、公开可访问的数据集,包含超过1400万张已手动注释的图像,用于指示它们所描绘的物体。它按照WordNet层次结构进行组织,包含20,000多个类别,一个典型的类别(如“气球”或“草莓”)包含数百张图像。这个庞大而多样化的集合对于推进计算机视觉 (CV)和深度学习 (DL)领域起到了重要作用,是训练和基准测试模型的标准。
斯坦福大学的研究人员创建 ImageNet 是 人工智能 (AI) 的一个关键时刻。在 ImageNet 之前,数据集通常太小,无法有效地训练复杂的 神经网络 (NN),从而导致诸如 过拟合 之类的问题。ImageNet 提供了训练深度模型所需的规模,为现代 AI 革命铺平了道路。您可以通过阅读原始的 ImageNet 研究论文 来了解更多信息。
ImageNet 的影响力因 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 而得到放大,这是一项从 2010 年到 2017 年举行的年度竞赛。这项挑战赛成为评估计算机视觉算法性能的关键基准。2012 年,一个名为 AlexNet 的卷积神经网络 (CNN) 取得了突破性的胜利,显著优于所有之前的模型。这一成功证明了深度学习和 GPU 计算的强大功能,引发了该领域的创新浪潮。ILSVRC 一直是许多现代架构发展的关键驱动力,您可以在 Papers with Code 等网站上查看当今模型在各种基准测试中的表现。
ImageNet的主要用途是作为预训练模型的资源。通过在这个庞大的数据集上训练模型,它可以学习识别丰富的视觉特征。然后,可以将这些知识转移到新的、更具体的任务中。这种技术被称为迁移学习。
区分 ImageNet 与其他相关术语和数据集非常重要:
像YOLO11这样的模型通常在 ImageNet 上进行预训练,以获得其分类主干,然后再在 COCO 上进行训练以进行检测任务。这种多阶段训练过程利用了两个数据集的优势。您可以在我们的模型比较页面上查看不同模型在这些基准上的比较情况。虽然 ImageNet 具有很大的影响力,但值得注意的是,ImageNet 存在局限性,包括已知的数据集偏差,从AI 伦理的角度来看,这些偏差非常重要。