术语表

图像网

ImageNet是一个突破性的数据集,拥有1400多万张图像,为人工智能研究、模型和应用提供了支持。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

ImageNet 是一个非常庞大的基础数据集,广泛应用于计算机视觉 (CV)研究和开发。它包含 1,400 多万张图片,这些图片都经过人工标注,以标明图片中的物体。这些图像是根据WordNet层次结构组织的,WordNet是一个大型词汇数据库,包含English 名词、动词、形容词和副词,并将其归类为认知同义词集(synsets)。ImageNet 拥有 20,000 多个类别,为训练和评估机器学习 (ML)模型,尤其是图像分类图像识别等任务提供了丰富多样的资源。其庞大的规模和详细的注释对推动人工智能(AI)领域的发展至关重要。您可以在ImageNet 数据文档页面上了解有关将该数据集与Ultralytics 模型一起使用的更多信息。

意义和相关性

ImageNet 的引入标志着深度学习(DL),尤其是计算机视觉领域的一个关键时刻。在 ImageNet 出现之前,缺乏大型、多样化和标记良好的数据集是阻碍进步的主要瓶颈。有了 ImageNet 这样的高质量数据集,就可以训练更深入、更复杂的模型,如卷积神经网络(CNN),从而在视觉理解任务方面取得重大突破。一年一度的ImageNet 大规模视觉识别挑战赛(ILSVRC)从 2010 年持续到 2017 年,它使用了 ImageNet 的一个子集,并成为评估图像分类和物体检测算法的标准基准数据集AlexNetResNet 等开创性模型在 ImageNet 上取得了最先进的结果,对现代 CV 架构产生了重大影响,并展示了深度学习在大规模数据上的威力。ILSVRC原始论文提供了有关该挑战及其影响的更多详细信息。

图像网络的应用

ImageNet 的主要用途是作为评估新计算机视觉模型和算法性能(准确性、速度)的标准基准,尤其是在图像分类方面。它的广泛应用使研究人员能够公平地比较结果。除基准测试外,ImageNet 还广泛用于预训练模型。预训练包括首先在大型通用 ImageNet 数据集上训练模型,使其能够学习稳健的视觉特征。这些预训练模型通常可通过以下框架获得 PyTorchTensorFlow等框架提供的这些预训练模型,然后可以利用迁移学习在更小、更具体的数据集上针对各种下游任务进行微调。这大大减少了目标任务所需的数据量和计算量,往往能带来更好的性能,尤其是在目标数据集较小的情况下。许多 Ultralytics YOLO模型就利用了预训练策略。Ultralytics HUB等平台为使用此类技术训练模型的过程提供了便利。

真实案例

ImageNet 的影响远远超出了学术研究,而是扩展到了实际应用领域:

  • 医学图像分析:在 ImageNet 上预先训练的模型通常会针对医学图像分析中的专门任务进行微调。虽然医学图像与 ImageNet 照片差别很大,但所学到的基础视觉特征(如边缘、纹理、基本形状)提供了一个强有力的起点。这种方法加快了医疗成像中肿瘤检测或 X 射线或 CT 扫描中异常识别等任务的人工智能工具的开发,促进了医疗保健领域人工智能的进步。
  • 自主系统: 自动驾驶汽车机器人的感知系统在很大程度上依赖于准确识别行人、汽车、交通标志和障碍物等物体。在 ImageNet 上对这些系统的物体识别组件进行预训练,有助于它们学习一般物体特征,从而在对特定驾驶或操作环境数据进行微调时提高其稳健性和可靠性。这有助于开发类似Waymo所用的技术,并将其集成到人工智能汽车解决方案中

ImageNet 与相关概念

必须将 ImageNet 与它所支持的任务和其他相关数据集区分开来:

  • ImageNet 与 CV 任务:ImageNet 本身是一个数据集,是贴有标签的图像的集合。它不是图像分类(为图像指定一个标签)、物体检测(用边界框定位物体)或图像分割(为每个像素指定一个标签,包括实例分割语义分割)之类的任务。相反,ImageNet 主要用于对执行这些任务(尤其是分类)的模型进行训练基准测试
  • ImageNet 与 COCO:ImageNet 是分类的标准,而COCO(Common Objects in Context,上下文中的常见物体)等数据集更常用于物体检测和分割的基准测试。这是因为 COCO 包含这些任务所需的更详细的注释,如精确的边界框和每幅图像中多个对象的每像素分割掩码,而 ImageNet 主要提供图像级标签(尽管存在一些对象定位数据)。Ultralytics 支持用于不同任务的各种计算机视觉数据集

虽然 ImageNet 的影响力令人难以置信,但它也有局限性,包括反映数据收集时间和来源的潜在数据集偏差,这是人工智能伦理的一个重要考虑因素。

阅读全部