Red troncal
Descubra el papel de los backbones en el aprendizaje profundo, explore arquitecturas punteras como ResNet y ViT, y conozca sus aplicaciones en el mundo real de la IA.
Una red troncal es un componente central de un modelo de aprendizaje profundo, especialmente en visión por computador (CV). Sirve como red principal de extracción de características. Su función principal es tomar datos de entrada sin procesar, como una imagen, y transformarlos en un conjunto de características de alto nivel, o mapas de características, que pueden utilizarse para tareas posteriores como la detección de objetos, la segmentación de imágenes o la clasificación. La columna vertebral es la parte de la red neuronal (NN ) que aprende a "ver" y comprender los patrones fundamentales de una imagen, como bordes, texturas, formas y objetos.
Cómo funcionan las columnas vertebrales
La columna vertebral suele ser una red neuronal convolucional (CNN ) profunda que ha sido preentrenada en un conjunto de datos de clasificación de imágenes a gran escala, como ImageNet. Este proceso de preentrenamiento, una forma de aprendizaje por transferencia, enseña a la red a reconocer una amplia biblioteca de características visuales generales. Al crear un modelo para una nueva tarea, los desarrolladores suelen utilizar estas bases preentrenadas en lugar de empezar desde cero. Este método reduce significativamente el tiempo de entrenamiento y la cantidad de datos etiquetados necesarios, al tiempo que suele mejorar el rendimiento del modelo. Las características extraídas por la red troncal se transmiten al "cuello" y la "cabeza" de la red, que las procesan y generan el resultado final. La elección de la red troncal suele implicar un equilibrio entre la precisión, el tamaño del modelo y la latencia de la inferencia, que es crucial para lograr un rendimiento en tiempo real.
Arquitecturas troncales comunes
El diseño de las redes troncales ha evolucionado a lo largo de los años, y cada nueva arquitectura ofrece mejoras en eficiencia y rendimiento. Algunas de las arquitecturas troncales más influyentes son:
- Redes residuales (ResNet): Introducidos por Microsoft Research, los modelos ResNet utilizan "conexiones de salto" para permitir que la red aprenda funciones residuales. Esta innovación permitió entrenar redes mucho más profundas sin sufrir el problema del gradiente de fuga.
- EfficientNet: Desarrollada por Google AI, esta familia de modelos utiliza un método de escalado compuesto para equilibrar uniformemente la profundidad, anchura y resolución de la red. El resultado son modelos muy precisos y eficientes desde el punto de vista computacional.
- Transformador de visión (ViT): Adaptando la exitosa arquitectura Transformer de la PNL a la visión, los ViT tratan una imagen como una secuencia de parches y utilizan la autoatención para capturar el contexto global, ofreciendo un enfoque diferente en comparación con los campos receptivos locales de las CNN.
- CSPNet (Red Parcial de Etapas Cruzadas): Esta arquitectura, descrita en su artículo original, mejora el aprendizaje integrando mapas de características del principio y el final de una etapa de la red, lo que mejora la propagación del gradiente y reduce los cuellos de botella computacionales. Es un componente clave en muchos modelos YOLO de Ultralytics.
Espina dorsal frente a cabeza y cuello
En una arquitectura típica de detección de objetos, el modelo se compone de tres partes principales:
- Red troncal: Su función es realizar la extracción de características de la imagen de entrada, creando mapas de características a varias escalas.
- Cuello: Este componente se sitúa entre la columna vertebral y la cabeza. Refina y agrega los mapas de características de la columna vertebral, a menudo combinando características de diferentes capas para construir una representación más rica. Un ejemplo habitual es la red piramidal de características (FPN).
- Cabezal de detección: es la parte final de la red, que toma las características refinadas del cuello y realiza la tarea de detección propiamente dicha. Predice los recuadros delimitadores, las etiquetas de clase y las puntuaciones de confianza de los objetos de la imagen.
La columna vertebral es, por tanto, la base sobre la que se construye el resto del modelo de detección. Modelos como YOLOv8 y YOLO11 integran potentes columnas vertebrales para garantizar una extracción de características de alta calidad, lo que resulta esencial para su rendimiento de vanguardia en diversas tareas. Puede explorar distintas comparaciones de modelos YOLO para ver cómo influyen las opciones de arquitectura en el rendimiento.
Aplicaciones reales
Los backbones son componentes fundamentales en innumerables aplicaciones de IA:
- Conducción autónoma: Los sistemas de los coches de conducción autónoma dependen en gran medida de redes troncales robustas (por ejemplo, las variantes ResNet o EfficientNet) para procesar las entradas procedentes de cámaras y sensores LiDAR. Las características extraídas permiten la detección y clasificación de vehículos, peatones, semáforos y líneas de carril, lo que es crucial para la navegación segura y la toma de decisiones, como se ha visto en sistemas desarrollados por empresas como Waymo.
- Análisis de imágenes médicas: En las soluciones de IA para la atención sanitaria, los backbones se utilizan para analizar exploraciones médicas como radiografías, TAC o resonancias magnéticas. Por ejemplo, un backbone como DenseNet puede extraer características de una radiografía de tórax para ayudar a detectar signos de neumonía o de un TAC para identificar posibles tumores(investigación relevante en Radiology: AI). Esto ayuda a los radiólogos en el diagnóstico y la planificación del tratamiento. Los modelos ultralíticos como YOLO11 pueden adaptarse a tareas como la detección de tumores aprovechando potentes bases.
Puede agilizar el proceso de utilización de potentes bases de datos para sus propios proyectos utilizando plataformas como Ultralytics HUB, que simplifica la gestión de conjuntos de datos y la formación de modelos personalizados.