ImageNet是一个突破性的数据集,拥有1400多万张图像,为人工智能研究、模型和应用提供了支持。
ImageNet 是一个非常庞大的基础数据集,广泛应用于计算机视觉 (CV)研究和开发。它包含 1,400 多万张图片,这些图片都经过人工标注,以标明图片中的物体。这些图像是根据WordNet层次结构组织的,WordNet是一个大型词汇数据库,包含English 名词、动词、形容词和副词,并将其归类为认知同义词集(synsets)。ImageNet 拥有 20,000 多个类别,为训练和评估机器学习 (ML)模型,尤其是图像分类和图像识别等任务提供了丰富多样的资源。其庞大的规模和详细的注释对推动人工智能(AI)领域的发展至关重要。您可以在ImageNet 数据集文档页面上了解有关将该数据集与Ultralytics 模型一起使用的更多信息。
ImageNet 的引入标志着深度学习(DL),尤其是计算机视觉领域的一个关键时刻。在 ImageNet 出现之前,缺乏大型、多样化和标记良好的数据集是阻碍进步的主要瓶颈。有了 ImageNet 这样的高质量数据集,就可以训练更深入、更复杂的模型,如卷积神经网络(CNN),从而在视觉理解任务方面取得重大突破。一年一度的ImageNet 大规模视觉识别挑战赛(ILSVRC)从 2010 年持续到 2017 年,它使用了 ImageNet 的一个子集,并成为评估图像分类和物体检测算法的标准基准数据集。AlexNet和ResNet 等开创性模型在 ImageNet 上取得了最先进的结果,对现代 CV 架构产生了重大影响,并展示了深度学习在大规模数据上的威力。ILSVRC原始论文提供了有关该挑战及其影响的更多详细信息。
ImageNet 的主要用途是作为评估新计算机视觉模型和算法性能(准确性、速度)的标准基准,尤其是在图像分类方面。它的广泛应用使研究人员能够公平地比较结果。除基准测试外,ImageNet 还广泛用于预训练模型。预训练包括首先在大型通用 ImageNet 数据集上训练模型,使其能够学习稳健的视觉特征。这些预训练模型通常可通过以下框架获得 PyTorch和 TensorFlow等框架提供的这些预训练模型,然后可以利用迁移学习在更小、更具体的数据集上针对各种下游任务进行微调。这大大减少了目标任务所需的数据量和计算量,往往能带来更好的性能,尤其是在目标数据集较小的情况下。许多 Ultralytics YOLO模型就利用了预训练策略。Ultralytics HUB等平台为使用此类技术训练模型的过程提供了便利。
ImageNet 的影响远远超出了学术研究,而是扩展到了实际应用领域:
必须将 ImageNet 与它所支持的任务和其他相关数据集区分开来:
虽然 ImageNet 的影响力令人难以置信,但它也有局限性,包括反映数据收集时间和来源的潜在数据集偏差,这是人工智能伦理的一个重要考虑因素。