Object Detection Architectures
Explora las arquitecturas de detección de objetos, desde los backbones hasta los heads. Aprende cómo Ultralytics YOLO26 ofrece una velocidad y precisión de élite para la visión artificial en tiempo real.
Las arquitecturas de detección de objetos son los planos estructurales de las redes neuronales utilizadas para identificar y localizar elementos dentro de datos visuales. En el campo más amplio de la visión por computador (CV), estas arquitecturas definen cómo "ve" una máquina al procesar datos de píxeles sin procesar y convertirlos en información significativa. A diferencia de los modelos de clasificación básicos que simplemente etiquetan una imagen, una arquitectura de detección de objetos está diseñada para generar un BBox junto con una etiqueta de clase y una puntuación de confianza para cada objeto distinto que encuentre. Este diseño estructural determina la velocidad, la precisión y la eficiencia computacional del modelo, lo que lo convierte en el factor crítico al elegir un modelo para inferencia en tiempo real o análisis de alta precisión.
Link to this sectionComponentes principales de una arquitectura#
Aunque los diseños específicos varían, la mayoría de las arquitecturas modernas comparten tres componentes fundamentales: el backbone, el neck y el head. El backbone actúa como el extractor de características principal. Normalmente es una red neuronal convolucional (CNN) preentrenada en un conjunto de datos grande como ImageNet, responsable de identificar formas, bordes y texturas básicas. Entre las opciones populares para backbones se incluyen ResNet y CSPDarknet.
El neck conecta el backbone con las capas de salida finales. Su función es mezclar y combinar características de diferentes etapas del backbone para asegurar que el modelo pueda detectar objetos de varios tamaños, un concepto conocido como fusión de características multiescala. A menudo, las arquitecturas utilizan aquí una Feature Pyramid Network (FPN) o una Path Aggregation Network (PANet) para enriquecer la información semántica que se pasa a las capas de predicción. Finalmente, el detection head procesa estas características fusionadas para predecir la clase específica y la ubicación de coordenadas de cada objeto.
Link to this sectionEvolución: dos etapas frente a una etapa#
Históricamente, las arquitecturas se dividían en dos categorías principales. Los detectores de dos etapas, como la familia R-CNN, proponen primero regiones de interés (RoIs) donde podrían existir objetos y luego clasifican esas regiones en un segundo paso. Aunque generalmente son precisos, a menudo son demasiado pesados computacionalmente para dispositivos de borde.
Por el contrario, los detectores de una etapa tratan la detección como un problema de regresión simple, mapeando los píxeles de la imagen directamente a las coordenadas del BBox y a las probabilidades de clase en una sola pasada. Este enfoque, iniciado por la familia YOLO (You Only Look Once), revolucionó la industria al permitir un rendimiento en tiempo real. Los avances modernos han culminado en modelos como YOLO26, que no solo ofrecen una velocidad superior, sino que también han adoptado arquitecturas de extremo a extremo sin NMS. Al eliminar la necesidad de postprocesamiento de Non-Maximum Suppression (NMS), estas arquitecturas más nuevas reducen la variabilidad de la latencia, lo cual es crucial para sistemas críticos de seguridad.
Link to this sectionAplicaciones en el mundo real#
La elección de la arquitectura afecta directamente al éxito de las soluciones de IA en todos los sectores.
- Automatización minorista: en supermercados inteligentes, las arquitecturas eficientes de una etapa permiten sistemas de pago automatizados que reconocen instantáneamente los productos en una cinta transportadora o en un carrito de la compra, reduciendo los tiempos de espera y el error humano.
- Diagnóstico médico: las arquitecturas de alta precisión se utilizan en análisis de imágenes médicas para detectar anomalías como tumores en radiografías o escáneres de resonancia magnética. Aquí, la capacidad de la arquitectura para conservar detalles minuciosos es más crítica que la velocidad bruta de procesamiento.
Link to this sectionDistinción de términos relacionados#
Es importante diferenciar las arquitecturas de detección de tareas similares de visión por computador:
- vs. Clasificación de imágenes: una arquitectura de clasificación de imágenes (como VGG o EfficientNet) asigna una sola etiqueta a una imagen completa (por ejemplo, "gato"). No te dice dónde está el gato ni si hay varios gatos, que es la función principal de las arquitecturas de detección.
- vs. Segmentación de instancias: mientras que la detección pone un cuadro alrededor de un objeto, la segmentación de instancias identifica el contorno preciso (máscara) perfecto para cada píxel de cada objeto. Las arquitecturas de segmentación suelen ser extensiones de las arquitecturas de detección (por ejemplo, añadiendo una rama de máscara al detection head).
Link to this sectionImplementación con Ultralytics#
Los frameworks modernos han abstraído las complejidades de estas arquitecturas, permitiendo a los desarrolladores aprovechar diseños de última generación con el mínimo código. Usando el paquete ultralytics, puedes cargar un modelo YOLO26 preentrenado y ejecutar la inferencia de inmediato. Para los equipos que buscan gestionar sus conjuntos de datos y entrenar arquitecturas personalizadas en la nube, la Ultralytics Platform simplifica todo el proceso de MLOps.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on an image source
# This uses the model's architecture to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()





