Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Arquitecturas de detección de objetos

Descubra el poder de las arquitecturas de detección de objetos, la columna vertebral de la IA para la comprensión de imágenes. ¡Aprenda sobre los tipos, las herramientas y las aplicaciones del mundo real hoy mismo!

Las arquitecturas de detección de objetos son los planos fundamentales para los modelos de aprendizaje profundo que realizan la detección de objetos. Esta tarea de visión artificial (CV) implica identificar la presencia y la ubicación de objetos dentro de una imagen o vídeo, normalmente dibujando un cuadro delimitador alrededor de ellos y asignando una etiqueta de clase. La arquitectura define la estructura del modelo, incluyendo cómo procesa la información visual y hace predicciones. La elección de la arquitectura es fundamental, ya que influye directamente en la velocidad, la precisión y los requisitos computacionales de un modelo.

Cómo funcionan las arquitecturas de detección de objetos

La mayoría de las arquitecturas modernas de detección de objetos constan de tres componentes principales que funcionan en secuencia:

  • Backbone: Se trata de una red neuronal convolucional (CNN), a menudo pre-entrenada en un gran conjunto de datos de clasificación de imágenes como ImageNet. Su función principal es actuar como un extractor de características, convirtiendo la imagen de entrada en una serie de mapas de características que capturan información visual jerárquica. Las redes backbone populares incluyen ResNet y CSPDarknet, que se utiliza en muchos modelos YOLO. Puede obtener más información sobre los fundamentos de las CNN en fuentes como la descripción detallada de IBM.
  • Cuello (Neck): Este componente opcional se sitúa entre la red troncal (backbone) y la cabeza (head). Sirve para agregar y refinar los mapas de características generados por la red troncal, combinando a menudo características de diferentes escalas para mejorar la detección de objetos de varios tamaños. Algunos ejemplos son las Redes Piramidales de Características (FPN).
  • Cabezal de detección: El cabezal es el componente final responsable de realizar las predicciones. Toma los mapas de características procesados del cuello (o directamente de la backbone) y genera las probabilidades de clase y las coordenadas del cuadro delimitador para cada objeto detectado.

Tipos de arquitecturas

Las arquitecturas de detección de objetos se clasifican ampliamente según su enfoque de predicción, lo que lleva a una compensación entre velocidad y precisión. Puede explorar comparaciones detalladas de modelos para ver estas compensaciones en acción.

  • Detectores de Objetos de Dos Etapas: Estos modelos, como la familia R-CNN, primero identifican un conjunto de regiones de objetos candidatas (propuestas de región) y luego clasifican cada región. Este proceso de dos pasos puede lograr una alta precisión, pero a menudo es más lento.
  • Detectores de Objetos de Una Etapa: Arquitecturas como la familia Ultralytics YOLO (You Only Look Once) tratan la detección de objetos como un único problema de regresión. Predicen bounding boxes y probabilidades de clase directamente desde la imagen completa en una sola pasada, lo que permite la inferencia en tiempo real.
  • Detectores sin anclas: Una evolución más reciente dentro de los detectores de una etapa, las arquitecturas sin anclas como Ultralytics YOLO11 eliminan la necesidad de anchor boxes predefinidos. Esto simplifica el proceso de entrenamiento y, a menudo, conduce a modelos más rápidos y eficientes.

Aplicaciones en el mundo real

Las arquitecturas de detección de objetos impulsan numerosas aplicaciones de IA en diversos sectores:

Herramientas y tecnologías

El desarrollo y la implementación de modelos basados en estas arquitecturas a menudo implican herramientas y frameworks especializados:

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles