Glosario

Red troncal

Descubra el papel de los backbones en el aprendizaje profundo, explore arquitecturas punteras como ResNet y ViT, y conozca sus aplicaciones en el mundo real de la IA.

En el aprendizaje profundo, especialmente en el campo de la visión por ordenador (CV), la "columna vertebral" se refiere al conjunto inicial y fundacional de capas de un modelo de red neuronal (NN). Su objetivo principal es la extracción de características: procesar datos de entrada sin procesar, como una imagen, y transformarlos en una representación compacta e informativa. Esta representación, a menudo denominada mapa de características, capta los patrones, texturas y formas esenciales de los datos de entrada. Piense en la columna vertebral como en los ojos de la IA, que realiza la interpretación inicial antes de que se produzca el razonamiento de nivel superior. Este procesamiento básico es fundamental para la capacidad general del modelo de comprender e interpretar la información visual en tareas posteriores.

Funciones básicas

Una red troncal típica consiste en una secuencia de capas, que suelen incluir capas convolucionales, capas de agrupación (que reducen las dimensiones espaciales) y funciones de activación (que introducen la no linealidad). A medida que los datos de entrada pasan por estas capas, la red aprende progresivamente características jerárquicas. Las primeras capas pueden detectar elementos simples como bordes y esquinas, mientras que las capas más profundas combinan estas características más simples para reconocer estructuras más complejas, partes de objetos y, finalmente, objetos enteros. El resultado generado por la columna vertebral es un conjunto de mapas de características de alto nivel que resumen la información crucial de la entrada original. Este proceso reduce eficazmente la dimensionalidad de los datos al tiempo que preserva su significado semántico, lo que constituye la base de muchos modelos de aprendizaje profundo de éxito.

Papel en los modelos de visión por ordenador

En los modelos sofisticados de visión por ordenador diseñados para tareas como la detección de objetos, la segmentación de instancias o la estimación de poses, la columna vertebral proporciona la representación esencial de las características. Los componentes posteriores, a menudo denominados "cuello" (que refina y agrega características) y "cabeza" (que realiza la predicción final de la tarea), se basan en las características extraídas por la columna vertebral. Por ejemplo, una cabeza de detección utiliza estas características refinadas para predecir recuadros delimitadores alrededor de los objetos detectados y sus clases correspondientes. La columna vertebral es distinta de estas etapas posteriores; su único objetivo es generar una representación de características potente, a menudo de uso general, a partir de los datos de entrada. Una práctica habitual es utilizar backbones preentrenados en conjuntos de datos a gran escala como ImageNet y, a continuación, perfeccionarlos para tareas posteriores específicas mediante aprendizaje por transferencia, lo que acelera considerablemente el proceso de entrenamiento.

Arquitecturas troncales comunes

Varias arquitecturas de redes neuronales bien establecidas se emplean con frecuencia como columnas vertebrales debido a su eficacia demostrada en la extracción de características:

La elección de la columna vertebral influye significativamente en las características de rendimiento de un modelo, incluida la velocidad, el coste computacional(FLOPs) y la precisión, como se destaca en varias comparaciones de modelos. Frameworks como PyTorch y TensorFlow, junto con librerías como OpenCV, son herramientas esenciales para implementar y utilizar estos backbones. Plataformas como Ultralytics HUB simplifican aún más el proceso de utilización de modelos con diferentes backbones.

Distinción entre la columna vertebral y términos afines

Es importante no confundir la columna vertebral con toda la red neuronal u otros componentes específicos:

  • Red neuronal completa: La columna vertebral es sólo una parte, normalmente la parte inicial de extracción de características, de una arquitectura de red más amplia. La red completa también incluye el cuello y la(s) cabeza(s) responsable(s) de las predicciones específicas de la tarea.
  • Cabezal de detección: es la parte final de un modelo de detección de objetos que toma características (a menudo procesadas tanto por la columna vertebral como por el cuello) y produce coordenadas de cuadro delimitador y probabilidades de clase. Es una tarea específica, a diferencia de la columna vertebral, que es más general.
  • Extractor de características: Aunque la columna vertebral es un extractor de características, el término "extractor de características" a veces puede referirse a cualquier parte de una red que extraiga características, o incluso a algoritmos independientes de extracción de características ajenos al aprendizaje profundo (como SIFT o HOG). En el contexto de las arquitecturas modernas de aprendizaje profundo como Ultralytics YOLO, "columna vertebral" se refiere específicamente a la base convolucional inicial.

Aplicaciones reales

Los backbones son componentes fundamentales en innumerables aplicaciones de IA:

  1. Conducción autónoma: Los sistemas de los coches de conducción autónoma dependen en gran medida de redes troncales robustas (por ejemplo, las variantes ResNet o EfficientNet) para procesar las entradas procedentes de cámaras y sensores LiDAR. Las características extraídas permiten la detección y clasificación de vehículos, peatones, semáforos y líneas de carril, lo que es crucial para la navegación segura y la toma de decisiones, como se ha visto en sistemas desarrollados por empresas como Waymo.
  2. Análisis de imágenes médicas: En las soluciones de IA para la atención sanitaria, los backbones se utilizan para analizar exploraciones médicas como radiografías, TAC o resonancias magnéticas. Por ejemplo, un backbone como DenseNet puede extraer características de una radiografía de tórax para ayudar a detectar signos de neumonía o de un TAC para identificar posibles tumores(investigación relevante en Radiology: AI). Esto ayuda a los radiólogos en el diagnóstico y la planificación del tratamiento. Los modelos ultralíticos como YOLO11 pueden adaptarse a tareas como la detección de tumores aprovechando potentes bases.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles