深圳Yolo 视觉
深圳
立即加入
词汇表

ImageNet

探索ImageNet,这个突破性的数据集为计算机视觉技术的发展提供了 1400 多万张图像,为人工智能研究、模型和应用提供了动力。

ImageNet 是一个庞大的、被广泛引用的视觉数据库,设计用于视觉对象识别软件研究。 它包含 1400 多万张经过人工标注的图像,标明了图像中的物体,并在 100 多万张图像中标明了物体的位置和边界框。 万张图像中,物体的位置都有边界框。根据 WordNet 层次结构,ImageNet 将图像映射到特定概念或 "同义词集",使其成为训练和评估计算机视觉 (CV) 模型的基础资源。 计算机视觉 (CV)模型的基础资源。其巨大的规模 和多样性使研究人员得以超越小规模实验,有效地开启了现代 深度学习(DL)时代。

视觉识别的演变

在ImageNet 之前,研究人员一直在为数据集太小而无法训练深度神经网络(NN 神经网络 (NN)而不会遇到 过拟合。由斯坦福大学视觉与学习实验室的研究人员创建的 斯坦福视觉与学习实验室的研究人员创建的ImageNet 解决了数据稀缺的问题。 它通过 ImageNet 大规模视觉识别挑战赛(ILSVRC)在全球范围内引起了广泛关注。 从 2010 年到 2017 年每年举办一次。

这一竞赛成为著名建筑设计的试验场。2012 年 AlexNet 架构在比赛中以显著优势胜出 赢得了比赛。 卷积神经网络(CNN)在比赛中大获全胜,证明了深度学习在图形处理器GPU上的可行性。 图形处理器(GPU)的可行性。 随后几年,更深入、更复杂的模型如 VGGResNet,它们 进一步降低了错误率,并在特定分类任务中超越了人类水平。

迁移学习和预培训

虽然ImageNet 是一个数据集,但它目前最实用的用途在于 迁移学习。训练一个深度神经网络 需要大量的 训练数据和计算能力。相反、 开发人员通常会使用已经在ImageNet 上 "预训练 "过的模型。

由于ImageNet 涵盖了 20,000 多种类别(从狗的品种到家居用品),因此在ImageNet 上训练的模型可以 学习丰富的高级特征表征。这些学习到的特征是 新模型的强大支柱。通过 微调这些预训练的权重,开发人员可以 在他们特定的自定义数据集上实现高准确率 用更少的图像。

实际应用

ImageNet 的影响力几乎扩展到所有使用人工智能(AI)的行业。 人工智能 (AI) 的每个行业。

  1. 医疗诊断:在 在医学图像分析中,标记数据 标注数据往往稀缺且获取成本高昂。研究人员使用在ImageNet 上预先训练的模型来识别一般形状和纹理,然后对ImageNet 进行微调,以检测 X 光片中的肿瘤或骨折。 纹理,然后对其进行微调,以detect X 射线中的肿瘤或骨折。这种方法加快了 医疗保健工具中的救生人工智能
  2. 智能零售系统:自动结账系统需要识别数千种产品。而不是 工程师利用ImageNet分类器来识别基本的产品形状和品牌。 基本的产品形状和品牌。这样就能快速 模型部署,从而在零售库存管理中实现高效的 人工智能在零售库存管理中的应用

使用ImageNet 预训练模型

开发人员可以使用Ultralytics 库轻松访问在ImageNet 上预先训练好的模型。以下示例 演示了如何加载 YOLO11分类模型、 并用它预测ImageNet 的类别。

from ultralytics import YOLO

# Load a YOLO11 classification model pre-trained on ImageNet
model = YOLO("yolo11n-cls.pt")

# Run inference on an image (e.g., a picture of a goldfish or bus)
# The model will output the top ImageNet classes and probabilities
results = model("https://ultralytics.com/images/bus.jpg")

# Print the top predicted class name
print(f"Prediction: {results[0].names[results[0].probs.top1]}")

ImageNet 与COCO

将ImageNet 与 COCO (上下文中的常见对象)数据集。

  • ImageNet主要是一个 图像分类的基准,其目标是 目标是为整幅图像分配一个标签(如 "虎斑猫")。注释的重点是 图像中的内容
  • COCO对象检测实例分割的标准基准。它包含较少的 但可提供复杂的注释,包括 边界框和像素掩码的复杂注释。 每个图像中的多个对象提供复杂的注释,重点关注对象的位置

ImageNet 用于教模型 "如何看",而COCO 等数据集则用于教它们如何在复杂场景中定位和分离物体。 和分离复杂场景中的物体。通常情况下,模型的编码器先在ImageNet 上进行预训练,然后再在 COCO 上进行检测任务的训练。 COCO 进行检测任务。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入