¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glosario

Redes Residuales (ResNet)

Descubra cómo las ResNets revolucionan el aprendizaje profundo al resolver los gradientes que se desvanecen, permitiendo redes ultraprofundas para el análisis de imágenes, el PNL y más.

Las redes residuales, comúnmente conocidas como ResNet, son un tipo revolucionario de arquitectura de red neuronal (NN) que ha tenido un profundo impacto en el campo del aprendizaje profundo. Presentadas por Kaiming He et al. en su artículo de 2015, "Aprendizaje Residual Profundo para el Reconocimiento de Imágenes", ResNet hizo posible entrenar eficazmente redes neuronales extremadamente profundas, con cientos o incluso miles de capas. Esto se logró mediante la introducción de "bloques residuales" con "conexiones de salto", un concepto simple pero poderoso que mitiga el problema del desvanecimiento del gradiente, que comúnmente afecta a las redes muy profundas.

Cómo funciona ResNet

La innovación principal de ResNet es el uso de conexiones de salto o atajos. En una Red Neuronal Convolucional (CNN) tradicional, cada capa alimenta su salida directamente a la siguiente capa en secuencia. A medida que la red se hace más profunda, se vuelve cada vez más difícil para la red aprender y para que los gradientes se propaguen hacia atrás durante el entrenamiento. Esto puede llevar a una situación en la que añadir más capas en realidad degrada el rendimiento del modelo.

ResNet aborda esto permitiendo que la entrada de una capa (o un bloque de capas) se añada a su salida. Esta conexión de salto crea una ruta alternativa para que fluya el gradiente, lo que garantiza que incluso las redes muy profundas puedan entrenarse eficazmente. Esta estructura permite a la red aprender funciones residuales; esencialmente, las capas solo necesitan aprender los cambios o residuales de la entrada, en lugar de toda la transformación. Si una capa no es beneficiosa, la red puede aprender fácilmente a ignorarla llevando sus pesos a cero, lo que permite que el mapeo de identidad se transmita a través de la conexión de salto.

ResNet vs. Otras Arquitecturas

  • CNN Estándar: A diferencia de las CNN secuenciales estándar, las ResNets pueden crecer mucho más en profundidad sin una pérdida de rendimiento, gracias al aprendizaje residual. Esta profundidad les permite aprender características más complejas y lograr una mayor precisión en tareas desafiantes.
  • U-Net: Si bien U-Net también utiliza conexiones de salto, su propósito es diferente. En U-Net, las conexiones de salto vinculan las capas de la ruta de submuestreo a la ruta de sobremuestreo para recuperar información espacial para una segmentación de imágenes precisa. En ResNet, las conexiones suelen ser más cortas y están diseñadas para mejorar el flujo de gradiente y permitir arquitecturas más profundas.

Aplicaciones en el mundo real

Las potentes capacidades de extracción de características de ResNet la convierten en una opción popular como backbone para muchas tareas complejas de visión artificial.

  • Análisis de imágenes médicas: En la IA para la atención médica, las arquitecturas ResNet se utilizan para analizar escaneos médicos como radiografías, tomografías computarizadas y resonancias magnéticas. Por ejemplo, un modelo basado en ResNet puede entrenarse en un conjunto de datos de escaneos cerebrales para ayudar a los radiólogos con la detección temprana de tumores, mejorando la precisión y la velocidad del diagnóstico.
  • Conducción autónoma: Los sistemas en coches autónomos se basan en backbones robustos para la percepción en tiempo real. ResNet se utiliza a menudo para procesar las entradas de la cámara para la detección de objetos, identificando peatones, vehículos y señales de tráfico, lo cual es crucial para los sistemas de navegación segura desarrollados por empresas como Waymo.

Herramientas e Implementación

Las arquitecturas ResNet se implementan ampliamente en los principales frameworks de aprendizaje profundo como PyTorch y TensorFlow. Los modelos pre-entrenados, a menudo entrenados en el conjunto de datos a gran escala ImageNet, están disponibles a través de bibliotecas como torchvision, lo que facilita el aprendizaje por transferencia eficaz para aplicaciones personalizadas. Plataformas como Ultralytics HUB permiten a los usuarios aprovechar varias arquitecturas, incluidos los modelos basados en ResNet, para entrenar modelos personalizados para sus necesidades específicas. Si bien ResNet estableció una sólida línea de base de rendimiento, desde entonces se han desarrollado arquitecturas más nuevas como EfficientNet para ofrecer una mejor eficiencia. Puede encontrar más recursos educativos sobre CNN en el curso CS231n de Stanford o a través de cursos de proveedores como DeepLearning.AI.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles