Descubra el poder de la detección de objetos: identifique y localice objetos en imágenes o vídeos con modelos de vanguardia como YOLO. Explore las aplicaciones del mundo real.
La detección de objetos es una función esencial de la visión por ordenador (VC) que permite a los no sólo reconocer lo que representa una imagen, sino también localizar elementos específicos en ella. Mientras que Mientras que la clasificación estándar asigna una única etiqueta a toda una entrada visual, la detección de objetos proporciona una comprensión más granular al predecir un cuadro delimitador alrededor de cada objeto. granular al predecir un recuadro alrededor de cada entidad entidad identificada, acompañada de una etiqueta de clase específica y una puntuación de confianza. Esta tecnología es la base sensorial sensorial para la inteligencia artificial (IA) avanzada máquinas percibir, interpretar e interactuar con la complejidad del mundo físico. Desde el control de calidad de las fábricas a la vigilancia avanzada, transforma los datos de píxeles no estructurados en información práctica.
Los detectores modernos se basan principalmente en arquitecturas de aprendizaje profundo (deep learning, DL) redes neuronales convolucionales (CNN), para aprender jerarquías espaciales de características. Una arquitectura típica consiste en una una red troncal, como ResNet o CSPNet, que extrae las características visuales esenciales de la imagen de entrada. A continuación, estas características son procesadas por un cabeza de detección que genera las coordenadas de y la probabilidad de pertenencia a una clase.
Para lograr un alto rendimiento, los modelos se entrenan con colecciones masivas de datos etiquetados, como el conjunto de datos COCO. COCO , que constituye un estándar para la evaluación comparativa. Durante la inferencia, los algoritmos suelen generar varias cajas superpuestas para el mismo objeto. Técnicas como supresión no máxima (NMS) se aplican se aplican para filtrar estas redundancias, manteniendo sólo la caja con la mayor confianza y la mejor supresión. Intersección sobre Unión (IoU) con la verdad sobre el terreno.
Los modelos se suelen clasificar en dos tipos:
Es crucial diferenciar la detección de objetos de otras tareas de tareas de visión por ordenador.
La detección de objetos es el motor de muchas tecnologías transformadoras en diversos sectores.
El siguiente fragmento de código muestra cómo realizar la detección de objetos utilizando un modelo YOLO11 preentrenado con la función
ultralytics paquete. Este sencillo flujo de trabajo carga un modelo y ejecuta la inferencia en una imagen para identificar
objetos como autobuses y personas.
from ultralytics import YOLO
# Load a pretrained YOLO11 model (n-scale for speed)
model = YOLO("yolo11n.pt")
# Run inference on a remote image source
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes and labels
results[0].show()