Descubra el papel de los backbones en el aprendizaje profundo, explore arquitecturas punteras como ResNet y ViT, y conozca sus aplicaciones en el mundo real de la IA.
En el aprendizaje profundo, especialmente en el campo de la visión por ordenador (CV), la "columna vertebral" se refiere al conjunto inicial y fundacional de capas de un modelo de red neuronal (NN). Su objetivo principal es la extracción de características: procesar datos de entrada sin procesar, como una imagen, y transformarlos en una representación compacta e informativa. Esta representación, a menudo denominada mapa de características, capta los patrones, texturas y formas esenciales de los datos de entrada. Piense en la columna vertebral como en los ojos de la IA, que realiza la interpretación inicial antes de que se produzca el razonamiento de nivel superior. Este procesamiento básico es fundamental para la capacidad general del modelo de comprender e interpretar la información visual en tareas posteriores.
Una red troncal típica consiste en una secuencia de capas, que suelen incluir capas convolucionales, capas de agrupación (que reducen las dimensiones espaciales) y funciones de activación (que introducen la no linealidad). A medida que los datos de entrada pasan por estas capas, la red aprende progresivamente características jerárquicas. Las primeras capas pueden detectar elementos simples como bordes y esquinas, mientras que las capas más profundas combinan estas características más simples para reconocer estructuras más complejas, partes de objetos y, finalmente, objetos enteros. El resultado generado por la columna vertebral es un conjunto de mapas de características de alto nivel que resumen la información crucial de la entrada original. Este proceso reduce eficazmente la dimensionalidad de los datos al tiempo que preserva su significado semántico, lo que constituye la base de muchos modelos de aprendizaje profundo de éxito.
En los modelos sofisticados de visión por ordenador diseñados para tareas como la detección de objetos, la segmentación de instancias o la estimación de poses, la columna vertebral proporciona la representación esencial de las características. Los componentes posteriores, a menudo denominados "cuello" (que refina y agrega características) y "cabeza" (que realiza la predicción final de la tarea), se basan en las características extraídas por la columna vertebral. Por ejemplo, una cabeza de detección utiliza estas características refinadas para predecir recuadros delimitadores alrededor de los objetos detectados y sus clases correspondientes. La columna vertebral es distinta de estas etapas posteriores; su único objetivo es generar una representación de características potente, a menudo de uso general, a partir de los datos de entrada. Una práctica habitual es utilizar backbones preentrenados en conjuntos de datos a gran escala como ImageNet y, a continuación, perfeccionarlos para tareas posteriores específicas mediante aprendizaje por transferencia, lo que acelera considerablemente el proceso de entrenamiento.
Varias arquitecturas de redes neuronales bien establecidas se emplean con frecuencia como columnas vertebrales debido a su eficacia demostrada en la extracción de características:
La elección de la columna vertebral influye significativamente en las características de rendimiento de un modelo, incluida la velocidad, el coste computacional(FLOPs) y la precisión, como se destaca en varias comparaciones de modelos. Frameworks como PyTorch y TensorFlow, junto con librerías como OpenCV, son herramientas esenciales para implementar y utilizar estos backbones. Plataformas como Ultralytics HUB simplifican aún más el proceso de utilización de modelos con diferentes backbones.
Es importante no confundir la columna vertebral con toda la red neuronal u otros componentes específicos:
Los backbones son componentes fundamentales en innumerables aplicaciones de IA: