Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Backbone

Descubra el papel de los backbones en el deep learning, explore las principales arquitecturas como ResNet y ViT, y conozca sus aplicaciones de IA en el mundo real.

Una columna vertebral es el componente fundamental de extracción de características de una arquitectura de aprendizaje profundo, especialmente dentro de la visión por computadora (CV). Al funcionar como la base de una red neuronal (NN), la columna vertebral toma datos de entrada sin procesar, como una imagen, y los transforma en una rica representación de patrones. Al procesar los píxeles a través de capas sucesivas, extrae conceptos jerárquicos que van desde simples bordes y texturas hasta formas complejas y estructuras semánticas. Esta información destilada, conocida como mapa de características, se pasa a continuación a los componentes posteriores para realizar tareas específicas como identificar objetos o asignar etiquetas de clase.

El papel de la columna vertebral

En los sistemas modernos de IA, la columna vertebral suele consistir en una red neuronal convolucional (CNN) o un transformador de visión (ViT) que ha sido preentrenado con un conjunto de datos masivo, como ImageNet. Este proceso, conocido como aprendizaje por transferencia, permite al modelo aprovechar las características visuales aprendidas previamente en lugar de aprender desde cero.

Por ejemplo, cuando los desarrolladores utilizan Ultralytics , el modelo viene equipado con una columna vertebral altamente optimizada. Este componente se encarga de la ardua tarea de comprender el contenido visual de la imagen, lo que permite que el resto de la red se centre en localizar elementos específicos o calcular puntuaciones de confianza.

Columna vertebral frente a cuello frente a cabeza

Para comprender la arquitectura de modelos como YOLO, resulta útil distinguir la columna vertebral de sus contrapartes, el cuello y la cabeza:

  • Backbone: El «extractor de características». Aísla la información visual esencial de la imagen de entrada. Entre los ejemplos más conocidos se incluyen Residual Networks (ResNet), desarrollado por Microsoft , y CSPNet, optimizado para la velocidad.
  • Cuello: El «agregador de características». Se encuentra entre la columna vertebral y la cabeza, refinando y combinando características de diferentes escalas. Una arquitectura común aquí es la Red Piramidal de Características (FPN), que garantiza que el modelo pueda detect objetos pequeños detect grandes de manera efectiva.
  • Cabeza: El «predictor». El cabezal de detección toma las características procesadas del cuello y genera el resultado final, como cuadros delimitadores y predicciones de clase.

Aplicaciones en el mundo real

Las redes troncales son el motor que impulsa innumerables aplicaciones industriales y científicas. Su capacidad para generalizar datos visuales las hace versátiles en todos los ámbitos.

  1. Vehículos autónomos: en la industria automotriz, las redes troncales procesan las señales de vídeo de las cámaras a bordo para comprender el entorno de conducción. Las soluciones de IA en el sector automotriz se basan en estas redes para detect , leer señales de tráfico e identificar peatones en tiempo real. Una red troncal robusta garantiza que el sistema pueda distinguir entre un coche aparcado y un camión en movimiento, un requisito fundamental para los sistemas de seguridad desarrollados por empresas como Waymo.
  2. Diagnóstico médico: En el ámbito sanitario, los modelos ayudan a los radiólogos analizando imágenes complejas como radiografías y resonancias magnéticas. Mediante el análisis de imágenes médicas, una red neuronal extrae anomalías sutiles que podrían indicar una enfermedad. Por ejemplo, los investigadores utilizan estas herramientas para la detección de tumores, donde la red identifica signos tempranos de cáncer que el ojo humano podría pasar por alto. La Sociedad Radiológica de Norteamérica (RSNA) destaca con frecuencia cómo estos modelos de aprendizaje profundo están revolucionando la atención al paciente.

Aplicación con Ultralytics

Modelos de última generación como YOLO11 y el más reciente YOLO26 integran potentes estructuras troncales de forma predeterminada. Estas estructuras troncales suelen estar optimizadas para la latencia de inferencia en diversos equipos, desde dispositivos periféricos hasta potentes GPU.

El siguiente Python muestra cómo cargar un YOLO preentrenado. Al ejecutarlo, la columna vertebral procesa la imagen de entrada para extraer las características necesarias para la detección.

from ultralytics import YOLO

# Load a YOLO26 model, which includes a pre-trained CSP backbone
model = YOLO("yolo26n.pt")

# Perform inference on an image
# The backbone extracts features, the neck aggregates them, and the head predicts
results = model("https://ultralytics.com/images/bus.jpg")

# Display the resulting detection
results[0].show()

Al utilizar una estructura preentrenada, los desarrolladores pueden realizar ajustes precisos en sus propios conjuntos de datos personalizados. Esta capacidad permite la creación rápida de modelos especializados, como los destinados a detectar paquetes en logística, sin necesidad de los enormes recursos computacionales que suelen requerirse para entrenar una estructura desde cero.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora