Descubra la clasificación de imágenes con Ultralytics YOLO: entrene modelos personalizados para sanidad, agricultura, comercio minorista y mucho más utilizando herramientas de vanguardia.
La clasificación de imágenes es una tarea fundamental en la visión artificial (CV) que consiste en analizar una imagen completa y asignarle una única etiqueta de un conjunto predefinido de categorías. Este proceso permite a las máquinas interpretar datos visuales respondiendo a la pregunta específica: «¿Qué representa esta imagen?». Como componente central de la inteligencia artificial (IA), la clasificación de imágenes sirve como base para sistemas de reconocimiento más complejos, lo que permite al software automatizado clasificar y organizar de manera eficiente grandes cantidades de información visual.
El mecanismo que subyace a la clasificación de imágenes se basa en gran medida en algoritmos de aprendizaje automático (ML), concretamente en arquitecturas de aprendizaje profundo (DL) conocidas como redes neuronales convolucionales (CNN). Estas redes están diseñadas para imitar el procesamiento visual humano. Mediante un proceso denominado extracción de características, el modelo analiza los datos de píxeles para identificar atributos de bajo nivel, como bordes y texturas, que luego se combinan en capas más profundas para reconocer formas y objetos complejos.
Para crear un clasificador eficaz, los desarrolladores se basan en el aprendizaje supervisado. Esto implica alimentar al modelo con un gran volumen de datos de entrenamiento que consisten en imágenes que ya están etiquetadas. Conjuntos de datos famosos como ImageNet proporcionan millones de ejemplos que ayudan a los modelos a generalizar bien a nuevos datos. Durante la fase de inferencia, el modelo calcula la probabilidad de que una nueva imagen pertenezca a cada clase, a menudo utilizando una función softmax para determinar el resultado final.
Es fundamental diferenciar la clasificación de imágenes de otras capacidades de visión artificial para garantizar que se utiliza la herramienta adecuada para cada tarea:
La simplicidad y rapidez de la clasificación de imágenes hacen que sea omnipresente en diversos sectores.
En el ámbito sanitario, los modelos de clasificación ayudan a los profesionales médicos mediante la preselección de datos diagnósticos. Por ejemplo, las herramientas de análisis de imágenes médicas pueden clasificar las radiografías o las resonancias magnéticas como «normales» o «anormales», lo que ayuda a los radiólogos a priorizar los casos urgentes. Puede obtener más información sobre aplicaciones prácticas en nuestra guía sobre el uso YOLO11 la detección de tumores.
Las líneas de fabricación utilizan la clasificación para identificar automáticamente las piezas defectuosas en una cinta transportadora, lo que garantiza que solo los productos de alta calidad lleguen a los consumidores. Del mismo modo, la IA en el comercio minorista impulsa los motores de búsqueda visual que permiten a los clientes subir una foto de una prenda de ropa y encontrar productos similares en un catálogo online. Plataformas como Google Vision y AWS Rekognition proporcionan API que aprovechan estas capacidades para uso comercial.
Aunque es famoso por la detección, el Ultralytics proporciona un sólido soporte para tareas de clasificación de imágenes. Los últimos modelos YOLO26 ofrecen una precisión y velocidad de vanguardia, lo que los hace ideales para su implementación en el borde, donde los recursos computacionales pueden ser limitados.
A continuación se muestra un ejemplo conciso de cómo utilizar un modelo preentrenado para classify imagen utilizando el
ultralytics Python . Esto demuestra lo fácil que es integrar la IA moderna en las aplicaciones.
from ultralytics import YOLO
# Load a pre-trained classification model
model = YOLO("yolo11n-cls.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Print the top predicted class name
print(f"Predicted class: {results[0].names[results[0].probs.top1]}")
Para los usuarios interesados en casos de uso especializados, es sencillo entrenar modelos personalizados en conjuntos de datos únicos, como CIFAR-10 o MNIST. Ya sea mediante la implementación a través de ONNX para la interoperabilidad o se optimiza para dispositivos móviles con TFLite, los flujos de trabajo de clasificación modernos están diseñados para ofrecer flexibilidad y escalabilidad.