探索ImageNet,这个突破性的数据集为计算机视觉技术的发展提供了 1400 多万张图像,为人工智能研究、模型和应用提供了动力。
ImageNet 是一个庞大的、被广泛引用的视觉数据库,设计用于视觉对象识别软件研究。 它包含 1400 多万张经过人工标注的图像,标明了图像中的物体,并在 100 多万张图像中标明了物体的位置和边界框。 万张图像中,物体的位置都有边界框。根据 WordNet 层次结构,ImageNet 将图像映射到特定概念或 "同义词集",使其成为训练和评估计算机视觉 (CV) 模型的基础资源。 计算机视觉 (CV)模型的基础资源。其巨大的规模 和多样性使研究人员得以超越小规模实验,有效地开启了现代 深度学习(DL)时代。
在ImageNet 之前,研究人员一直在为数据集太小而无法训练深度神经网络(NN 神经网络 (NN)而不会遇到 过拟合。由斯坦福大学视觉与学习实验室的研究人员创建的 斯坦福视觉与学习实验室的研究人员创建的ImageNet 解决了数据稀缺的问题。 它通过 ImageNet 大规模视觉识别挑战赛(ILSVRC)在全球范围内引起了广泛关注。 从 2010 年到 2017 年每年举办一次。
这一竞赛成为著名建筑设计的试验场。2012 年 AlexNet 架构在比赛中以显著优势胜出 赢得了比赛。 卷积神经网络(CNN)在比赛中大获全胜,证明了深度学习在图形处理器(GPU)上的可行性。 图形处理器(GPU)的可行性。 随后几年,更深入、更复杂的模型如 VGG和ResNet,它们 进一步降低了错误率,并在特定分类任务中超越了人类水平。
虽然ImageNet 是一个数据集,但它目前最实用的用途在于 迁移学习。训练一个深度神经网络 需要大量的 训练数据和计算能力。相反、 开发人员通常会使用已经在ImageNet 上 "预训练 "过的模型。
由于ImageNet 涵盖了 20,000 多种类别(从狗的品种到家居用品),因此在ImageNet 上训练的模型可以 学习丰富的高级特征表征。这些学习到的特征是 新模型的强大支柱。通过 微调这些预训练的权重,开发人员可以 在他们特定的自定义数据集上实现高准确率 用更少的图像。
ImageNet 的影响力几乎扩展到所有使用人工智能(AI)的行业。 人工智能 (AI) 的每个行业。
开发人员可以使用Ultralytics 库轻松访问在ImageNet 上预先训练好的模型。以下示例 演示了如何加载 YOLO11分类模型、 并用它预测ImageNet 的类别。
from ultralytics import YOLO
# Load a YOLO11 classification model pre-trained on ImageNet
model = YOLO("yolo11n-cls.pt")
# Run inference on an image (e.g., a picture of a goldfish or bus)
# The model will output the top ImageNet classes and probabilities
results = model("https://ultralytics.com/images/bus.jpg")
# Print the top predicted class name
print(f"Prediction: {results[0].names[results[0].probs.top1]}")
将ImageNet 与 COCO (上下文中的常见对象)数据集。
ImageNet 用于教模型 "如何看",而COCO 等数据集则用于教它们如何在复杂场景中定位和分离物体。 和分离复杂场景中的物体。通常情况下,模型的编码器先在ImageNet 上进行预训练,然后再在 COCO 上进行检测任务的训练。 COCO 进行检测任务。

