Backbone
Descubra el papel de los backbones en el deep learning, explore las principales arquitecturas como ResNet y ViT, y conozca sus aplicaciones de IA en el mundo real.
Una columna vertebral es un componente central de un
modelo de aprendizaje profundo, especialmente
visión por computador (CV). Funciona como la
red principal de extracción de características
tomar datos de entrada sin procesar, como una imagen, y transformarlos en un conjunto de características de alto nivel. Estos
características capturan patrones esenciales como bordes,
texturas y formas. Las partes siguientes de la red utilizan esta rica representación para realizar tareas como
detección de objetos,
segmentación de imágenes o
clasificación de imágenes. La columna vertebral es la base de una
red neuronal (NN) que aprende a
"ver" los elementos visuales fundamentales de una imagen.
Cómo funcionan los Backbones
Normalmente, una red troncal es una
red neuronal convolucional (CNN)
que se ha entrenado previamente en un conjunto de datos de clasificación a gran escala, como
ImageNet. Este preentrenamiento, una forma de
aprendizaje por transferencia, permite a la red
amplia biblioteca de características visuales generales. A la hora de desarrollar un modelo para una tarea nueva y específica, los desarrolladores suelen utilizar una base preentrenada en lugar de empezar desde cero.
en lugar de empezar desde cero. Este enfoque acorta significativamente el tiempo necesario para
modelos personalizados y reduce los requisitos de datos, lo
de datos, lo que suele mejorar el rendimiento. Las características extraídas por la columna vertebral se pasan al "cuello" y la
cuello" y la "cabeza" de la red, que se encargan de perfeccionarlas y generar el resultado final. La elección de
La elección de la red troncal suele depender de la precisión, el tamaño del modelo y la latencia de la inferencia, un factor crítico.
latencia de la inferencia, un factor crítico para
lograr
en tiempo real.
El siguiente código muestra cómo se puede utilizar un
Ultralytics YOLO11 preentrenado, que contiene una
puede cargarse y utilizarse para realizar inferencias sobre una imagen.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model. Its architecture includes a powerful backbone.
model = YOLO("yolo11n.pt")
# Run inference. The backbone processes the image to extract features for detection.
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
Arquitecturas de Backbone Comunes
El diseño de las redes troncales ha evolucionado significativamente, y cada nueva arquitectura ofrece mejoras en rendimiento y
eficiencia. Algunas de las arquitecturas troncales más influyentes son:
-
Redes residuales (ResNet):
Introducidos por Microsoft Research, los modelos ResNet utilizan
"conexiones de salto" para permitir el entrenamiento de redes mucho más profundas al mitigar el problema del gradiente de fuga.
de gradiente.
-
EfficientNet: Desarrollada por Google AI, esta familia de modelos
emplea un método de escalado compuesto que equilibra uniformemente la profundidad, la anchura y la resolución de la red para crear modelos que sean a la vez muy precisos y eficientes desde el punto de vista informático.
modelos que sean a la vez muy precisos y eficientes desde el punto de vista informático.
-
Transformador de Visión (ViT):
Esta arquitectura adapta el exitoso modelo
modelo Transformer del
procesamiento del lenguaje natural (PLN)
para tareas de visión. Los ViT procesan las imágenes como secuencias de parches y utilizan
autoatención para captar el contexto global
de los campos receptivos locales de las CNN tradicionales.
-
CSPNet (Red Parcial de Etapas Cruzadas): Como se detalla en su
original, esta arquitectura mejora la eficiencia del aprendizaje
particionando los mapas de características para reducir los cuellos de botella computacionales. Es un componente clave en muchos Ultralytics YOLO
de Ultralytics.
Backbone vs. Head and Neck
En las arquitecturas
arquitecturas de detección de objetos, el
modelo suele dividirse en tres partes principales:
-
Red troncal: Como base, su función es extraer mapas de características a varias escalas de la imagen de entrada.
entrada.
-
El cuello: Este componente conecta la columna vertebral con la cabeza. Afina y agrega las características de
la columna vertebral, a menudo combinando información de diferentes capas para crear una representación más rica. Un ejemplo habitual
es la red piramidal de características (FPN).
-
Cabeza de detección: Es la parte
de la red. Toma las características refinadas del cuello y realiza la tarea principal, como predecir los
los recuadros delimitadores, las etiquetas de clase y las puntuaciones de confianza
de cada objeto.
La columna vertebral es, por tanto, el elemento fundamental de todo el modelo. Puede explorar una serie de
comparaciones de modelosYOLO para ver cómo afectan al rendimiento
afectan al rendimiento.
Aplicaciones en el mundo real
Los backbones son componentes esenciales de innumerables aplicaciones de IA en diversos sectores:
-
Vehículos autónomos: En
coches autónomos, las redes troncales robustas como ResNet
o las variantes de EfficientNet procesan las imágenes de las cámaras para detect y classify otros vehículos, peatones y señales de tráfico.
señales de tráfico. Esta extracción de características es fundamental para la navegación y la toma de decisiones del vehículo, como se ha demostrado en sistemas desarrollados por empresas como WayNet y EfficientNet.
como demuestran sistemas desarrollados por empresas como Waymo.
-
Análisis de imágenes médicas:
En las soluciones de IA para atención sanitaria, se utilizan backbones
para analizar exploraciones médicas como radiografías y resonancias magnéticas. Por ejemplo, una columna vertebral puede extraer características de una radiografía de tórax para ayudar a identificar signos de neumonía o de una tomografía computarizada para detectar posibles tumores.
ayudar a identificar signos de neumonía o de una tomografía computarizada para encontrar posibles tumores, como se destaca en la investigación de
Radiología: Artificial Intelligence. Esto ayuda a los radiólogos a
diagnósticos más rápidos y precisos, y modelos como YOLO11 pueden ajustarse para tareas especializadas como la detección de tumores.
detección de tumores.