Glosario

Backbone

Descubra el papel de los backbones en el deep learning, explore las principales arquitecturas como ResNet y ViT, y conozca sus aplicaciones de IA en el mundo real.

Una columna vertebral es un componente central de un modelo de aprendizaje profundo, especialmente visión por computador (CV). Funciona como la red principal de extracción de características tomar datos de entrada sin procesar, como una imagen, y transformarlos en un conjunto de características de alto nivel. Estos características capturan patrones esenciales como bordes, texturas y formas. Las partes siguientes de la red utilizan esta rica representación para realizar tareas como detección de objetos, segmentación de imágenes o clasificación de imágenes. La columna vertebral es la base de una red neuronal (NN) que aprende a "ver" los elementos visuales fundamentales de una imagen.

Cómo funcionan los Backbones

Normalmente, una red troncal es una red neuronal convolucional (CNN) que se ha entrenado previamente en un conjunto de datos de clasificación a gran escala, como ImageNet. Este preentrenamiento, una forma de aprendizaje por transferencia, permite a la red amplia biblioteca de características visuales generales. A la hora de desarrollar un modelo para una tarea nueva y específica, los desarrolladores suelen utilizar una base preentrenada en lugar de empezar desde cero. en lugar de empezar desde cero. Este enfoque acorta significativamente el tiempo necesario para modelos personalizados y reduce los requisitos de datos, lo de datos, lo que suele mejorar el rendimiento. Las características extraídas por la columna vertebral se pasan al "cuello" y la cuello" y la "cabeza" de la red, que se encargan de perfeccionarlas y generar el resultado final. La elección de La elección de la red troncal suele depender de la precisión, el tamaño del modelo y la latencia de la inferencia, un factor crítico. latencia de la inferencia, un factor crítico para lograr en tiempo real.

El siguiente código muestra cómo se puede utilizar un Ultralytics YOLO11 preentrenado, que contiene una puede cargarse y utilizarse para realizar inferencias sobre una imagen.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model. Its architecture includes a powerful backbone.
model = YOLO("yolo11n.pt")

# Run inference. The backbone processes the image to extract features for detection.
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Arquitecturas de Backbone Comunes

El diseño de las redes troncales ha evolucionado significativamente, y cada nueva arquitectura ofrece mejoras en rendimiento y eficiencia. Algunas de las arquitecturas troncales más influyentes son:

Redes residuales (ResNet): Introducidos por Microsoft Research, los modelos ResNet utilizan "conexiones de salto" para permitir el entrenamiento de redes mucho más profundas al mitigar el problema del gradiente de fuga. de gradiente.
EfficientNet: Desarrollada por Google AI, esta familia de modelos emplea un método de escalado compuesto que equilibra uniformemente la profundidad, la anchura y la resolución de la red para crear modelos que sean a la vez muy precisos y eficientes desde el punto de vista informático. modelos que sean a la vez muy precisos y eficientes desde el punto de vista informático.
Transformador de Visión (ViT): Esta arquitectura adapta el exitoso modelo modelo Transformer del procesamiento del lenguaje natural (PLN) para tareas de visión. Los ViT procesan las imágenes como secuencias de parches y utilizan autoatención para captar el contexto global de los campos receptivos locales de las CNN tradicionales.
CSPNet (Red Parcial de Etapas Cruzadas): Como se detalla en su original, esta arquitectura mejora la eficiencia del aprendizaje particionando los mapas de características para reducir los cuellos de botella computacionales. Es un componente clave en muchos Ultralytics YOLO de Ultralytics.

Backbone vs. Head and Neck

En las arquitecturas arquitecturas de detección de objetos, el modelo suele dividirse en tres partes principales:

Red troncal: Como base, su función es extraer mapas de características a varias escalas de la imagen de entrada. entrada.
El cuello: Este componente conecta la columna vertebral con la cabeza. Afina y agrega las características de la columna vertebral, a menudo combinando información de diferentes capas para crear una representación más rica. Un ejemplo habitual es la red piramidal de características (FPN).
Cabeza de detección: Es la parte de la red. Toma las características refinadas del cuello y realiza la tarea principal, como predecir los los recuadros delimitadores, las etiquetas de clase y las puntuaciones de confianza de cada objeto.

La columna vertebral es, por tanto, el elemento fundamental de todo el modelo. Puede explorar una serie de comparaciones de modelosYOLO para ver cómo afectan al rendimiento afectan al rendimiento.

Aplicaciones en el mundo real

Los backbones son componentes esenciales de innumerables aplicaciones de IA en diversos sectores:

Vehículos autónomos: En coches autónomos, las redes troncales robustas como ResNet o las variantes de EfficientNet procesan las imágenes de las cámaras para detect y classify otros vehículos, peatones y señales de tráfico. señales de tráfico. Esta extracción de características es fundamental para la navegación y la toma de decisiones del vehículo, como se ha demostrado en sistemas desarrollados por empresas como WayNet y EfficientNet. como demuestran sistemas desarrollados por empresas como Waymo.
Análisis de imágenes médicas: En las soluciones de IA para atención sanitaria, se utilizan backbones para analizar exploraciones médicas como radiografías y resonancias magnéticas. Por ejemplo, una columna vertebral puede extraer características de una radiografía de tórax para ayudar a identificar signos de neumonía o de una tomografía computarizada para detectar posibles tumores. ayudar a identificar signos de neumonía o de una tomografía computarizada para encontrar posibles tumores, como se destaca en la investigación de Radiología: Artificial Intelligence. Esto ayuda a los radiólogos a diagnósticos más rápidos y precisos, y modelos como YOLO11 pueden ajustarse para tareas especializadas como la detección de tumores. detección de tumores.

Backbone

Entrene los modelosYOLO Ultralytics para agilizar los flujos de trabajo en todos los sectores

Solución de licencias empresariales flexible para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

Cómo funcionan los Backbones

Arquitecturas de Backbone Comunes

Backbone vs. Head and Neck

Aplicaciones en el mundo real

Leer más en esta categoría

La guía definitiva sobre herramientas de estimación de posturas

La visión artificial hace que el seguimiento del movimiento sea más fiable.

Las 8 mejores herramientas y algoritmos de código abierto para el seguimiento de objetos

Únase a la comunidad Ultralytics