Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Backbone

Descubra el papel de los backbones en el deep learning, explore las principales arquitecturas como ResNet y ViT, y conozca sus aplicaciones de IA en el mundo real.

Un backbone es un componente central de un modelo de aprendizaje profundo, particularmente en visión artificial (CV). Sirve como la principal red de extracción de características. Su principal función es tomar datos de entrada sin procesar, como una imagen, y transformarlos en un conjunto de características de alto nivel, o mapas de características, que pueden utilizarse para tareas posteriores como la detección de objetos, la segmentación de imágenes o la clasificación. Se puede pensar en el backbone como la parte de la red neuronal (NN) que aprende a "ver" y comprender los patrones fundamentales —como bordes, texturas, formas y objetos— dentro de una imagen.

Cómo funcionan los Backbones

La backbone suele ser una Red Neuronal Convolucional (CNN) profunda que ha sido pre-entrenada en un conjunto de datos de clasificación de imágenes a gran escala, como ImageNet. Este proceso de pre-entrenamiento, una forma de aprendizaje por transferencia, enseña a la red a reconocer una vasta biblioteca de características visuales generales. Al construir un modelo para una nueva tarea, los desarrolladores a menudo utilizan estas backbones pre-entrenadas en lugar de empezar desde cero. Este enfoque reduce significativamente el tiempo de entrenamiento y la cantidad de datos etiquetados necesarios, a la vez que a menudo mejora el rendimiento del modelo. Las características extraídas por la backbone se pasan entonces al "cuello" y a la "cabeza" de la red, que realizan un procesamiento adicional y generan la salida final. La elección de la backbone a menudo implica una compensación entre la precisión, el tamaño del modelo y la latencia de inferencia, lo cual es crucial para lograr un rendimiento en tiempo real.

Arquitecturas de Backbone Comunes

El diseño de los backbones ha evolucionado a lo largo de los años, y cada nueva arquitectura ofrece mejoras en eficiencia y rendimiento. Algunas de las arquitecturas de backbone más influyentes incluyen:

  • Redes residuales (ResNet): Introducidos por Microsoft Research, los modelos ResNet utilizan "conexiones de salto" para permitir que la red aprenda funciones residuales. Esta innovación permitió entrenar redes mucho más profundas sin sufrir el problema del gradiente de fuga.
  • EfficientNet: Desarrollada por Google AI, esta familia de modelos utiliza un método de escalado compuesto para equilibrar uniformemente la profundidad, el ancho y la resolución de la red. Esto da como resultado modelos que son altamente precisos y computacionalmente eficientes.
  • Transformador de Visión (ViT): Adaptando la exitosa arquitectura Transformer de la PNL a la visión, los ViT tratan una imagen como una secuencia de parches y utilizan la autoatención para capturar el contexto global, ofreciendo un enfoque diferente en comparación con los campos receptivos locales de las CNN.
  • CSPNet (Red Parcial de Etapas Cruzadas): Esta arquitectura, descrita en su artículo original, mejora el aprendizaje integrando mapas de características desde el principio y el final de una etapa de la red, lo que mejora la propagación del gradiente y reduce los cuellos de botella computacionales. Es un componente clave en muchos modelos de Ultralytics YOLO.

Backbone vs. Head and Neck

En una arquitectura típica de detección de objetos, el modelo se compone de tres partes principales:

  1. Backbone: Su función es realizar la extracción de características de la imagen de entrada, creando mapas de características en varias escalas.
  2. Cuello (Neck): Este componente se sitúa entre la red troncal (backbone) y la cabeza (head). Refina y agrega los mapas de características de la red troncal, a menudo combinando características de diferentes capas para construir una representación más rica. Un ejemplo común es la Red Piramidal de Características (FPN, Feature Pyramid Network).
  3. Cabezal de detección: Es la parte final de la red, que toma las características refinadas del cuello y realiza la tarea de detección propiamente dicha. Predice los recuadros delimitadores, las etiquetas de clase y las puntuaciones de confianza de los objetos de la imagen.

Por lo tanto, la backbone es la base sobre la que se construye el resto del modelo de detección. Modelos como YOLOv8 y YOLO11 integran backbones potentes para garantizar una extracción de características de alta calidad, lo cual es esencial para su rendimiento de última generación en diversas tareas. Puede explorar diferentes comparaciones de modelos YOLO para ver cómo las elecciones arquitectónicas impactan en el rendimiento.

Aplicaciones en el mundo real

Los backbones son componentes fundamentales en innumerables aplicaciones de IA:

  1. Conducción autónoma: Los sistemas de los coches de conducción autónoma dependen en gran medida de redes troncales robustas (por ejemplo, las variantes ResNet o EfficientNet) para procesar las entradas procedentes de cámaras y sensores LiDAR. Las características extraídas permiten la detección y clasificación de vehículos, peatones, semáforos y líneas de carril, lo que es crucial para la navegación segura y la toma de decisiones, como se ha visto en sistemas desarrollados por empresas como Waymo.
  2. Análisis de imágenes médicas: En las soluciones de IA para la atención sanitaria, las bases se utilizan para analizar exploraciones médicas como radiografías, TAC o resonancias magnéticas. Por ejemplo, un backbone como DenseNet puede extraer características de una radiografía de tórax para ayudar a detectar signos de neumonía o de un TAC para identificar posibles tumores(investigación relevante en Radiology: AI). Esto ayuda a los radiólogos en el diagnóstico y la planificación del tratamiento. Los modelos ultralíticos como YOLO11 pueden adaptarse a tareas como la detección de tumores aprovechando potentes bases.

Puede optimizar el proceso de uso de backbones potentes para sus propios proyectos utilizando plataformas como Ultralytics HUB, que simplifica la gestión de conjuntos de datos y el entrenamiento de modelos personalizados.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles