Arquitecturas de detección de objetos

Descubra la potencia de las arquitecturas de detección de objetos, la columna vertebral de la IA para la comprensión de imágenes. Aprenda tipos, herramientas y aplicaciones reales hoy mismo.

Las arquitecturas de detección de objetos son los cimientos de los modelos de aprendizaje profundo que realizan la detección de objetos. Esta tarea de visión por ordenador (CV ) consiste en identificar la presencia y la ubicación de objetos en una imagen o un vídeo, normalmente dibujando un cuadro delimitador a su alrededor y asignándoles una etiqueta de clase. La arquitectura define la estructura del modelo, incluida la forma en que procesa la información visual y realiza predicciones. La elección de la arquitectura es fundamental, ya que influye directamente en la velocidad, la precisión y los requisitos computacionales del modelo.

Funcionamiento de las arquitecturas de detección de objetos

La mayoría de las arquitecturas modernas de detección de objetos constan de tres componentes principales que funcionan en secuencia:

Red troncal: Se trata de una red neuronal convolucional (CNN), a menudo preentrenada en un gran conjunto de datos de clasificación de imágenes como ImageNet. Su función principal es actuar como un extractor de características, convirtiendo la imagen de entrada en una serie de mapas de características que capturan información visual jerárquica. Entre las redes troncales más populares se encuentran ResNet y CSPDarknet, que se utiliza en muchos modelos YOLO. Puede obtener más información sobre los fundamentos de las CNN en fuentes como la descripción detallada de IBM.
Cuello: Este componente opcional se sitúa entre la columna vertebral y la cabeza. Sirve para agregar y refinar los mapas de características generados por la columna vertebral, a menudo combinando características de diferentes escalas para mejorar la detección de objetos de varios tamaños. Algunos ejemplos son las redes piramidales de características (FPN).
Cabezal de detección: El cabezal es el componente final responsable de realizar las predicciones. Toma los mapas de características procesados del cuello (o directamente de la columna vertebral) y emite las probabilidades de clase y las coordenadas del cuadro delimitador de cada objeto detectado.

Tipos de arquitecturas

Las arquitecturas de detección de objetos se clasifican a grandes rasgos en función de su enfoque de la predicción, lo que da lugar a un equilibrio entre velocidad y precisión. Puede explorar comparaciones detalladas de modelos para ver estas compensaciones en acción.

Detectores de objetos de dos etapas: Estos modelos, como la familia R-CNN, identifican primero un conjunto de regiones de objetos candidatos (propuestas de regiones) y luego clasifican cada región. Este proceso en dos etapas puede lograr una gran precisión, pero suele ser más lento.
Detectores de objetos de una etapa: Arquitecturas como la familia Ultralytics YOLO (You Only Look Once) tratan la detección de objetos como un único problema de regresión. Predicen recuadros delimitadores y probabilidades de clase directamente a partir de la imagen completa en una sola pasada, lo que permite realizar inferencias en tiempo real.
Detectores sin anclaje: Una evolución más reciente dentro de los detectores de una etapa, las arquitecturas sin anclaje como Ultralytics YOLO11 eliminan la necesidad de cajas de anclaje predefinidas. Esto simplifica el proceso de formación y suele dar lugar a modelos más rápidos y eficaces.

Aplicaciones reales

Las arquitecturas de detección de objetos impulsan numerosas aplicaciones de IA en diversos sectores:

Vehículos autónomos: Esencial para que los coches autónomos perciban su entorno detectando peatones, otros vehículos, señales de tráfico y marcas de carril. Empresas como Waymo dependen en gran medida de una sofisticada detección de objetos. Más información sobre la IA en los coches autónomos.
Seguridad y vigilancia: Se utiliza en sistemas de seguridad para detectar accesos no autorizados, vigilar multitudes en busca de actividades inusuales o aplicar el reconocimiento facial. Consulte la Guía de sistemas de alarma de seguridad de Ultralytics para ver un ejemplo práctico.
Análisis de imágenes médicas: Ayuda a los radiólogos a detectar anomalías como tumores o fracturas en radiografías, tomografías computarizadas y resonancias magnéticas. Explore las soluciones de IA en sanidad y aplicaciones específicas como la detección de tumores con YOLO11.
Análisis del comercio minorista: Permite aplicaciones como la caja automatizada, la supervisión de estanterías y la IA para la gestión de inventarios.

Herramientas y tecnologías

El desarrollo y despliegue de modelos basados en estas arquitecturas suele requerir herramientas y marcos especializados:

Marcos de aprendizaje profundo: Bibliotecas como PyTorch (visite el sitio web oficial de PyTorch) y TensorFlow (consulte el sitio web de TensorFlow) proporcionan los bloques de construcción básicos.
Bibliotecas de visión por ordenador: OpenCV (sitio oficial: OpenCV.org) ofrece una amplia gama de funciones para el procesamiento y la manipulación de imágenes.
Modelos y plataformas: Ultralytics proporciona modelos Ultralytics YOLO de última generación y la plataforma Ultralytics HUB, lo que simplifica el proceso de formación de modelos personalizados, la gestión de conjuntos de datos (como COCO) y el despliegue de soluciones.
Código abierto: Muchas arquitecturas y herramientas de detección de objetos se desarrollan bajo licencias de código abierto, lo que fomenta la colaboración y la innovación dentro de la comunidad de la IA. Recursos como GitHub albergan numerosos proyectos en este ámbito.

Arquitecturas de detección de objetos

Solución flexible de licencias empresariales para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

Entrene modelos YOLO de forma sencilla con Ultralytics HUB

Funcionamiento de las arquitecturas de detección de objetos

Tipos de arquitecturas

Aplicaciones reales

Herramientas y tecnologías

Leer más en esta categoría

¿Cómo se elabora el té con tecnologías como Vision AI?

Llevar Ultralytics YOLO11 a los dispositivos Apple mediante CoreML

Guía de ERP de fabricación

Únase a la comunidad Ultralytics