ImageNet是一个突破性的数据集,拥有1400多万张图像,为人工智能研究、模型和应用提供了支持。
ImageNet 是一个庞大的、可公开访问的数据集,其中包含超过 1400 万张经过人工标注的图像,以标明这些图像所描绘的对象。该数据集根据WordNet 层次结构进行组织,包含 20,000 多个类别,一个典型类别(如 "气球 "或 "草莓")由数百张图片组成。这个庞大而多样的集合在推动计算机视觉(CV)和深度学习(DL)领域的发展方面发挥了重要作用,是模型训练和基准测试的标准。
斯坦福大学研究人员创建的 ImageNet 是人工智能 (AI) 的关键时刻。在 ImageNet 诞生之前,数据集往往太小,无法有效训练复杂的神经网络 (NN),从而导致过拟合等问题。ImageNet 提供了训练深度模型所需的规模,为现代人工智能革命铺平了道路。您可以阅读原始ImageNet 研究论文,了解更多信息。
ImageNet的影响力因ImageNet大规模视觉识别挑战赛(ILSVRC)而进一步扩大。该挑战赛成为评估计算机视觉算法性能的重要基准。2012 年,一个名为 AlexNet 的卷积神经网络(CNN)取得了突破性的胜利,其性能大大超过了之前的所有模型。这一成功展示了深度学习和 GPU 计算的威力,引发了该领域的创新浪潮。ILSVRC 是许多现代架构发展的关键驱动力,您可以在Papers with Code 等网站上查看当今模型在各种基准测试中的表现。
ImageNet 的主要用途是作为预训练模型的资源。通过在这个庞大的数据集上训练模型,它可以学会识别丰富的视觉特征。然后,这些知识可以迁移到新的、更具体的任务中。这种技术被称为迁移学习。
必须将 ImageNet 与其他相关术语和数据集区分开来:
像YOLO11这样的模型通常先在 ImageNet 上进行分类骨干的预训练,然后再在 COCO 上进行检测任务的训练。这种多阶段训练过程充分利用了两个数据集的优势。您可以在我们的模型比较页面上查看不同模型在这些基准上的比较。虽然 ImageNet 极具影响力,但值得注意的是它也有局限性,包括已知的数据集偏差,这一点从人工智能伦理的角度来看非常重要。