Descubra cómo ResNets revoluciona el aprendizaje profundo resolviendo gradientes de fuga, permitiendo redes ultradetalladas para el análisis de imágenes, PNL y mucho más.
Las redes residuales, comúnmente conocidas como ResNet, son un tipo innovador de arquitectura de red neuronal (NN ) que ha tenido un profundo impacto en el campo del aprendizaje profundo. Introducida por Kaiming He et al. en su artículo de 2015,"Deep Residual Learning for Image Recognition", ResNet hizo posible entrenar eficazmente redes neuronales extremadamente profundas, con cientos o incluso miles de capas. Esto se logró mediante la introducción de "bloques residuales" con "conexiones de salto", un concepto sencillo pero potente que mitiga el problema del gradiente de fuga, que suele afectar a las redes muy profundas.
La principal innovación de ResNet es el uso de conexiones de salto o atajos. En una red neuronal convolucional (CNN) tradicional, cada capa alimenta su salida directamente a la siguiente capa en secuencia. A medida que la red se hace más profunda, resulta cada vez más difícil que aprenda y que los gradientes se propaguen hacia atrás durante el entrenamiento. Esto puede llevar a una situación en la que añadir más capas de hecho degrada el rendimiento del modelo.
ResNet soluciona este problema permitiendo que la entrada de una capa (o un bloque de capas) se añada a su salida. Esta conexión de salto crea un camino alternativo por el que fluye el gradiente, garantizando que incluso las redes muy profundas puedan entrenarse con eficacia. Esta estructura permite a la red aprender funciones residuales: básicamente, las capas sólo necesitan aprender los cambios o residuos de la entrada, en lugar de la transformación completa. Si una capa no es beneficiosa, la red puede aprender fácilmente a ignorarla dirigiendo sus pesos hacia cero, permitiendo que el mapeo de identidad pase a través de la conexión de salto.
Las potentes capacidades de extracción de características de ResNet la convierten en una opción popular como columna vertebral para muchas tareas complejas de visión por ordenador.
Las arquitecturas ResNet están ampliamente implementadas en los principales marcos de aprendizaje profundo, como PyTorch y TensorFlow. Los modelos preentrenados, a menudo entrenados en el conjunto de datos a gran escala ImageNet, están fácilmente disponibles a través de bibliotecas como torchvision, lo que facilita un aprendizaje de transferencia eficaz para aplicaciones personalizadas. Plataformas como Ultralytics HUB permiten a los usuarios aprovechar diversas arquitecturas, incluidos los modelos basados en ResNet, para entrenar modelos personalizados para sus necesidades específicas. Aunque ResNet estableció una sólida base de rendimiento, desde entonces se han desarrollado arquitecturas más recientes, como EfficientNet, que ofrecen una mayor eficiencia. Puede encontrar más recursos educativos sobre CNN en el curso CS231n de Stanford o a través de cursos de proveedores como DeepLearning.AI.