Explore los detectores de objetos de una sola etapa para la IA en tiempo real de alta velocidad. Descubra cómo Ultralytics ofrece una precisión y eficiencia excepcionales para la IA en el borde y la implementación.
Los detectores de objetos de una sola etapa son una potente clase de arquitecturas de aprendizaje profundo diseñadas para realizar tareas de detección de objetos con una velocidad y eficiencia excepcionales. A diferencia de los detectores de objetos tradicionales de dos etapas, que dividen el proceso de detección en pasos separados para la propuesta de regiones y la clasificación posterior, los modelos de una sola etapa analizan toda la imagen en una sola pasada. Al enmarcar la detección como un problema de regresión directa, estas redes predicen simultáneamente las coordenadas del cuadro delimitador y las probabilidades de clase directamente a partir de los píxeles de entrada. Este enfoque optimizado reduce significativamente la sobrecarga computacional, lo que convierte a los detectores de una sola etapa en la opción preferida para aplicaciones que requieren inferencia y despliegue en tiempo real en dispositivos de IA periféricos con recursos limitados.
La arquitectura de un detector de una sola etapa suele centrarse en una red neuronal convolucional (CNN) que sirve de columna vertebral para la extracción de características. A medida que una imagen pasa por la red, el modelo genera una cuadrícula de mapas de características que codifican la información espacial y semántica.
Las primeras implementaciones, como el detector Single Shot MultiBox (SSD), se basaban en cuadros de anclaje predefinidos a varias escalas para localizar objetos. Sin embargo, los avances modernos como Ultralytics YOLO11 y el vanguardista YOLO26 se han orientado en gran medida hacia diseños sin anclajes. Estas nuevas arquitecturas predicen directamente los centros y tamaños de los objetos, eliminando la necesidad de un complejo ajuste de hiperparámetros asociado a los anclajes. El resultado final consiste en vectores de coordenadas para la localización y una puntuación de confianza que representa la certeza del modelo respecto al objeto detectado.
Distinguir entre estas dos categorías principales ayuda a seleccionar la herramienta adecuada para una tarea específica:
La eficiencia de los detectores de una sola etapa ha impulsado su adopción generalizada en diversas industrias donde la capacidad de respuesta inmediata es fundamental:
La implementación de un detector de una sola etapa es sencilla utilizando API modernas de alto nivel. Para garantizar resultados precisos, los modelos a menudo predicen múltiples recuadros potenciales, que luego se filtran utilizando técnicas como la supresión no máxima (NMS) basada en umbrales de intersección sobre unión (IoU), aunque los modelos integrales más recientes, como YOLO26, gestionan esto de forma nativa.
El siguiente Python muestra cómo cargar el modelo de última generación YOLO26 y realizar una inferencia en una imagen:
from ultralytics import YOLO
# Load the YOLO26 model, the latest natively end-to-end one-stage detector
model = YOLO("yolo26n.pt")
# Run inference on an image URL to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the first result with bounding boxes and labels
results[0].show()
La evolución de los detectores de una sola etapa se ha centrado en superar la disyuntiva entre «precisión y velocidad». Se introdujeron técnicas como la pérdida focal para abordar el desequilibrio de clases durante el entrenamiento, garantizando que el modelo se centre enclassify en lugar de en el abundante contexto. Además, la integración de las redes piramidales de características (FPN) permite a estos modelos detect a diferentes escalas de forma eficaz.
Hoy en día, los investigadores y desarrolladores pueden entrenar fácilmente estas arquitecturas avanzadas en conjuntos de datos personalizados utilizando herramientas como la Ultralytics , que simplifica el flujo de trabajo desde la anotación de datos hasta la implementación del modelo. Ya sea para la agricultura o la atención sanitaria, la accesibilidad de los detectores de una sola etapa está democratizando las potentes capacidades de la visión artificial.