Descubra la clasificación de imágenes con Ultralytics YOLO: entrene modelos personalizados para la atención médica, la agricultura, el comercio minorista y más, utilizando herramientas de vanguardia.
La clasificación de imágenes es una tarea fundamental en la visión artificial (CV) que implica asignar una única etiqueta específica a una imagen completa de un conjunto predefinido de categorías. El objetivo principal es identificar el tema principal de una imagen y clasificarlo en consecuencia. Por ejemplo, un modelo de clasificación analizaría una imagen y generaría una etiqueta como "gato", "perro" o "coche". Esta tarea forma la base de muchas aplicaciones de CV más complejas y es un componente central del aprendizaje automático (ML). El proceso se basa en algoritmos, especialmente las Redes Neuronales Convolucionales (CNN), para aprender características distintivas de grandes conjuntos de datos etiquetados.
Los modelos de clasificación de imágenes se entrenan mediante aprendizaje supervisado, donde se les proporciona una gran cantidad de imágenes que ya han sido etiquetadas manualmente con la clase correcta. Durante el entrenamiento, la red neuronal aprende a identificar patrones, texturas, formas y combinaciones de colores asociados con cada categoría. Este aprendizaje se logra a través de un proceso llamado retropropagación, que ajusta los parámetros internos del modelo, o pesos, para minimizar la diferencia entre sus predicciones y las etiquetas reales.
Los modelos de clasificación modernos a menudo utilizan arquitecturas de aprendizaje profundo con muchas capas. Las primeras capas pueden aprender a reconocer características simples como bordes y esquinas, mientras que las capas más profundas combinan estas para identificar estructuras más complejas como ojos, ruedas o caras. La capa final de la red normalmente utiliza una función softmax para producir una puntuación de probabilidad para cada clase posible. La clase con la probabilidad más alta se elige como la predicción final. La extracción de características es clave para este proceso, donde el modelo aprende automáticamente las características más informativas para la tarea de clasificación.
La clasificación de imágenes se utiliza en numerosas industrias para automatizar y escalar las tareas de reconocimiento visual. Dos ejemplos destacados incluyen:
Aunque está estrechamente relacionada con otras tareas de visión artificial, la clasificación de imágenes tiene un propósito distinto. Es importante diferenciarla de:
En resumen, la clasificación te dice qué hay en una imagen, la detección te dice qué y dónde, y la segmentación proporciona un mapa detallado a nivel de píxel de todo lo que hay en la escena.
Aunque son famosos por la detección de objetos, los modelos Ultralytics YOLO también destacan en tareas de clasificación de imágenes. Los modelos de última generación como YOLO11 se pueden entrenar o ajustar fácilmente en conjuntos de datos personalizados utilizando el intuitivo paquete Ultralytics Python o la plataforma Ultralytics HUB sin necesidad de código.
Nuestra documentación proporciona amplios recursos, incluyendo consejos para el entrenamiento de modelos y una guía detallada sobre cómo usar YOLO11 para la clasificación de imágenes. Los desarrolladores pueden aprovechar los modelos pre-entrenados en conjuntos de datos de referencia como ImageNet, CIFAR-100 y Caltech-101 o entrenar un nuevo modelo desde cero. Para aquellos interesados en los últimos avances, recursos como Papers With Code ofrecen una visión general completa de los modelos de mejor rendimiento. También puede comparar el rendimiento del modelo YOLO en benchmarks estándar. Frameworks como PyTorch y TensorFlow proporcionan la base para construir y entrenar estos modelos.