Descubra cómo las ResNets revolucionan el aprendizaje profundo al resolver los gradientes que se desvanecen, permitiendo redes ultraprofundas para el análisis de imágenes, el PNL y más.
Las redes residuales, comúnmente conocidas como ResNets, representan una arquitectura revolucionaria en el aprendizaje profundo que resolvió un problema fundamental en el entrenamiento de redes neuronales muy profundas. Antes de su introducción por parte de investigadores Microsoft Research en 2015, añadir más capas a una red neuronal (NN) solía provocar una disminución de la precisión debido al problema del gradiente desaparecido, en el que las señales se desvanecían al pasar por capas complejas. ResNet introdujo un ingenioso cambio estructural denominado «conexiones de salto» o «conexiones de acceso directo», que permiten que la información omita ciertas capas y fluya directamente a las siguientes. Esta innovación permitió el entrenamiento de redes con cientos de capas, lo que supuso un avance significativo en las capacidades de los sistemas de visión por ordenador (CV).
En los modelos tradicionales de aprendizaje profundo (DL), las capas se apilan secuencialmente. A medida que las redes se vuelven más profundas para capturar características más complejas, se vuelven más difíciles de entrenar. Esta dificultad surge porque los gradientes —señales utilizadas para actualizar los pesos del modelo durante el entrenamiento— pueden volverse infinitesimalmente pequeños a medida que se propagan a través de muchas capas, un fenómeno conocido como el problema del gradiente desaparecido.
ResNet aborda esto reestructurando la red en bloques residuales. En lugar de aprender una correspondencia directa entre la entrada y la salida, cada bloque aprende la diferencia (o residual) entre la entrada y la salida deseada. La conexión de salto añade la entrada original directamente a la salida del bloque. Esta simple adición crea una ruta directa para que los gradientes fluyan hacia atrás durante la retropropagación, lo que garantiza que incluso las redes muy profundas puedan aprender de forma eficaz sin degradación del rendimiento. Para una comprensión teórica más profunda, puede explorar el artículo original, Deep Residual Learning for Image Recognition(Aprendizaje residual profundo para el reconocimiento de imágenes).
El éxito de ResNet radica en su diseño modular, que ha influido en muchas arquitecturas modernas.
La solidez de ResNet lo ha convertido en una opción estándar para diversas aplicaciones de gran impacto.
Aunque arquitecturas más recientes como Vision Transformer (ViT) han ganado popularidad, ResNet sigue siendo una referencia debido a su equilibrio entre velocidad y precisión. Se utiliza ampliamente en el aprendizaje por transferencia, donde un modelo preentrenado en un conjunto de datos masivo como ImageNet se ajusta para una tarea específica con datos limitados.
Los detectores de objetos modernos, incluido el avanzado YOLO26, suelen incorporar conceptos desarrollados a partir de ResNet, como las conexiones residuales dentro de sus estructuras principales, para facilitar la extracción eficiente de características en múltiples escalas.
Puede utilizar fácilmente un modelo ResNet para
clasificación de imágenes utilizando el
ultralytics Python . Este ejemplo muestra cómo cargar un modelo ResNet50 preentrenado para classify
imagen.
from ultralytics import YOLO
# Load a pre-trained ResNet50 model
model = YOLO("resnet50.pt")
# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Print the top predicted class
print(f"Prediction: {results[0].names[results[0].probs.top1]}")
Es útil distinguir ResNet de otras arquitecturas para comprender su contribución única.
Para obtener una visión más amplia de cómo encajan estos modelos en el panorama de la visión artificial, puede explorar nuestra guía sobre arquitecturas de detección de objetos o aprender a entrenar sus propios modelos con conjuntos de datos personalizados.