Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Arquitecturas de detección de objetos

Descubra el poder de las arquitecturas de detección de objetos, la columna vertebral de la IA para la comprensión de imágenes. ¡Aprenda sobre los tipos, las herramientas y las aplicaciones del mundo real hoy mismo!

Las arquitecturas de detección de objetos sirven de marco estructural para modelos de aprendizaje profundo diseñados para identificar elementos distintos en los datos visuales. A diferencia de la clasificación clasificación de imágenes estándar, que asigna una única etiqueta a toda la imagen, estas arquitecturas permiten a las máquinas reconocer múltiples entidades, definiendo su con un cuadro delimitador y asignar una etiqueta de clase a cada una de ellas. La arquitectura determina cómo procesa la red neuronal los datos de los píxeles para convertirlos en información significativa, lo que influye directamente en el modelo. La arquitectura dicta cómo procesa la red neuronal los datos de píxeles para convertirlos en percepciones significativas, lo que influye directamente en la precisión del modelo, velocidad y eficiencia computacional del modelo.

Componentes clave de las arquitecturas de detección

La mayoría de los sistemas de detección modernos se basan en un diseño modular que comprende tres etapas principales. Comprender estos componentes ayuda a los investigadores e ingenieros a elegir la herramienta adecuada para desde el análisis de imágenes médicas industrial.

  • La red troncal: Es la parte inicial de la red, responsable de la extracción de características. Suele ser normalmente una red neuronal convolucional (CNN) que procesa la imagen en bruto para identificar patrones como bordes, texturas y formas. Las redes troncales más populares son redes residuales (ResNet) y las redes Stage Partial (CSP) utilizadas en los modelos YOLO . Para profundizar en la extracción de características, puede consultar los apuntes de CS231n de la Universidad de Stanford.
  • El cuello: Situado entre la columna vertebral y la cabeza, el cuello agrega mapas de características de diferentes etapas. Esto permite al modelo detect objetos a varias escalas (pequeña, mediana y grande). Una técnica utilizada aquí es la Feature Pyramid Network (FPN), que crea una representación multiescala de la imagen.
  • El cabezal de detección: El último componente es el cabeza de detección, que genera las predicciones. Genera las coordenadas específicas de los recuadros delimitadores y las puntuaciones de confianza de cada clase. de confianza de cada clase.

Tipos de arquitecturas

Las arquitecturas se clasifican generalmente por su enfoque de procesamiento, que a menudo representa un compromiso entre la velocidad de inferencia y la precisión de detección.

Detectores de una etapa frente a detectores de dos etapas

  • Detectores de objetos de dos etapas: Estos modelos, como la familia R-CNN, funcionan en dos etapas distintas: primero generan propuestas de regiones (áreas (zonas en las que puede haber un objeto) y, a continuación, clasifican esas regiones. Aunque históricamente son conocidos por su gran precisión computacionalmente. Puede leer el artículo original Faster R-CNN para comprender las raíces de este enfoque.
  • Detectores de objetos de una etapa: Arquitecturas como la Ultralytics YOLO tratan la detección como un un único problema de regresión, prediciendo los recuadros delimitadores y las probabilidades de clase directamente a partir de la imagen en una sola pasada. Esta estructura permite la inferencia en tiempo real, lo que la hace ideal para flujos de vídeo y dispositivos de borde.

Basado en anclajes frente a sin anclajes

Las arquitecturas antiguas solían basarse en cajas de anclaje:formas predefinidasque el modelo intenta ajustar a los objetos. Sin embargo, los detectores detectores sin anclajes, como YOLO11eliminan este ajuste manual de hiperparámetros. El resultado es un proceso de formación simplificado y una mejor generalización. De cara al futuro, los próximos proyectos de I+D, como YOLO26 perfeccionar aún más estos conceptos sin anclaje, con arquitecturas nativas de extremo a extremo para una eficiencia aún mayor.

Aplicaciones en el mundo real

La versatilidad de las arquitecturas de detección de objetos impulsa la innovación en muchos sectores:

  • Vehículos autónomos: Los coches autónomos utilizan arquitecturas de alta velocidad para detect peatones, señales de tráfico y otros vehículos en en tiempo real. Empresas como Waymo aprovechan estos avanzados sistemas de visión para navegar por entornos urbanos complejos de forma segura.
  • Análisis del comercio minorista: En el sector minorista se despliegan arquitecturas para supermercados inteligentes para gestionar el inventario y analizar el comportamiento de los clientes. Mediante el seguimiento del movimiento de los productos en las estanterías, las tiendas pueden automatizar los procesos de reposición.
  • Agricultura de precisión: Los agricultores utilizan estos modelos de IA en agricultura para identificar enfermedades de los cultivos o la detección automática de malas hierbas, lo que reduce considerablemente el uso de productos químicos.

Detección de objetos

Utilizar una arquitectura moderna como YOLO11 es sencillo gracias a las API de Python de alto nivel. El siguiente ejemplo muestra cómo cargar un modelo preentrenado y realizar inferencias sobre una imagen.

from ultralytics import YOLO

# Load the YOLO11n model (nano version for speed)
model = YOLO("yolo11n.pt")

# Perform object detection on a remote image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results (bounding boxes and labels)
results[0].show()

Los interesados en comparar el impacto de las distintas arquitecturas en el rendimiento pueden consultar las comparaciones detalladas de los modelos de YOLO11 y YOLO11. comparaciones de modelos para ver los puntos de referencia entre YOLO11 y otros sistemas como RT-DETR. Además, comprender métricas como Intersección sobre Unión (IoU) es es crucial para evaluar la eficacia de una arquitectura.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora