通过 Ultralytics YOLO 探索图像分类:使用前沿工具训练用于医疗保健、农业、零售等领域的自定义模型。
图像分类是计算机视觉 (CV)中的一项基本任务,它涉及从预定义的类别集中为整个图像分配一个特定的标签。主要目标是识别图像的主要主题并对其进行相应分类。例如,分类模型会分析图像并输出诸如“猫”、“狗”或“汽车”之类的标签。此任务构成了许多更复杂的 CV 应用的基础,并且是机器学习 (ML)的核心组成部分。该过程依赖于算法,最著名的是卷积神经网络 (CNN),以从大型标记数据集中学习区分特征。
图像分类模型使用监督学习进行训练,该方法会向模型输入大量已手动标记正确类别的图像。在训练过程中,神经网络学习识别与每个类别相关的模式、纹理、形状和颜色组合。这种学习是通过一种称为反向传播的过程实现的,该过程调整模型的内部参数或权重,以最大限度地减少其预测与实际标签之间的差异。
现代分类模型通常使用具有多层的深度学习架构。 早期层可能学习识别简单的特征,如边缘和角,而更深层将这些特征组合起来以识别更复杂的结构,如眼睛、车轮或面部。 网络的最后一层通常使用Softmax函数来为每个可能的类别生成概率分数。 选择具有最高概率的类别作为最终预测。 此过程的关键是特征提取,模型在其中自动学习用于分类任务的最具信息量的特征。
图像分类被广泛应用于各个行业,以自动化和扩展视觉识别任务。两个突出的例子包括:
虽然与其它计算机视觉任务密切相关,但图像分类具有独特的目的。重要的是要将其与以下内容区分开来:
总而言之,分类告诉你图像中是什么,检测告诉你是什么和在哪里,而分割提供了场景中所有内容的详细像素级地图。
Ultralytics YOLO 模型虽然以目标检测而闻名,但在图像分类任务方面也很出色。可以使用直观的 Ultralytics Python 包 或无需代码的 Ultralytics HUB 平台,在自定义数据集上轻松训练或微调 YOLO11 等最先进的模型。
我们的文档提供了丰富的资源,包括模型训练技巧和关于如何使用 YOLO11 进行图像分类的详细指南。开发人员可以利用 ImageNet、CIFAR-100 和 Caltech-101 等基准数据集上的预训练模型,或者从头开始训练新模型。对于那些对最新进展感兴趣的人,像 Papers With Code 这样的资源提供了对表现最佳模型的全面概述。您还可以比较 YOLO 模型在标准基准上的性能。PyTorch 和 TensorFlow 等框架为构建和训练这些模型奠定了基础。