Descubra cómo las ResNets revolucionan el aprendizaje profundo al resolver los gradientes que se desvanecen, permitiendo redes ultraprofundas para el análisis de imágenes, el PNL y más.
Las redes residuales, comúnmente conocidas como ResNet, son un tipo revolucionario de arquitectura de red neuronal (NN) que ha tenido un profundo impacto en el campo del aprendizaje profundo. Presentadas por Kaiming He et al. en su artículo de 2015, "Aprendizaje Residual Profundo para el Reconocimiento de Imágenes", ResNet hizo posible entrenar eficazmente redes neuronales extremadamente profundas, con cientos o incluso miles de capas. Esto se logró mediante la introducción de "bloques residuales" con "conexiones de salto", un concepto simple pero poderoso que mitiga el problema del desvanecimiento del gradiente, que comúnmente afecta a las redes muy profundas.
La innovación principal de ResNet es el uso de conexiones de salto o atajos. En una Red Neuronal Convolucional (CNN) tradicional, cada capa alimenta su salida directamente a la siguiente capa en secuencia. A medida que la red se hace más profunda, se vuelve cada vez más difícil para la red aprender y para que los gradientes se propaguen hacia atrás durante el entrenamiento. Esto puede llevar a una situación en la que añadir más capas en realidad degrada el rendimiento del modelo.
ResNet aborda esto permitiendo que la entrada de una capa (o un bloque de capas) se añada a su salida. Esta conexión de salto crea una ruta alternativa para que fluya el gradiente, lo que garantiza que incluso las redes muy profundas puedan entrenarse eficazmente. Esta estructura permite a la red aprender funciones residuales; esencialmente, las capas solo necesitan aprender los cambios o residuales de la entrada, en lugar de toda la transformación. Si una capa no es beneficiosa, la red puede aprender fácilmente a ignorarla llevando sus pesos a cero, lo que permite que el mapeo de identidad se transmita a través de la conexión de salto.
Las potentes capacidades de extracción de características de ResNet la convierten en una opción popular como backbone para muchas tareas complejas de visión artificial.
Las arquitecturas ResNet se implementan ampliamente en los principales frameworks de aprendizaje profundo como PyTorch y TensorFlow. Los modelos pre-entrenados, a menudo entrenados en el conjunto de datos a gran escala ImageNet, están disponibles a través de bibliotecas como torchvision, lo que facilita el aprendizaje por transferencia eficaz para aplicaciones personalizadas. Plataformas como Ultralytics HUB permiten a los usuarios aprovechar varias arquitecturas, incluidos los modelos basados en ResNet, para entrenar modelos personalizados para sus necesidades específicas. Si bien ResNet estableció una sólida línea de base de rendimiento, desde entonces se han desarrollado arquitecturas más nuevas como EfficientNet para ofrecer una mejor eficiencia. Puede encontrar más recursos educativos sobre CNN en el curso CS231n de Stanford o a través de cursos de proveedores como DeepLearning.AI.