Descubra cómo las ResNets revolucionan el aprendizaje profundo al resolver los gradientes que se desvanecen, permitiendo redes ultraprofundas para el análisis de imágenes, el PNL y más.
Las redes residuales, ampliamente conocidas como ResNets, representan un avance fundamental en el campo de la inteligencia artificial (IA) y la visión por ordenador (CV). Introducida en 2015 por investigadores de Microsoft Research, esta arquitectura abordó un reto importante en el aprendizaje profundo (AD) conocido como el problema del gradiente de fuga. Antes de la llegada de ResNet, el aumento de la profundidad de una red neuronal (NN) a menudo daba como resultado en la que, al añadir más capas, aumentaban los errores de entrenamiento. ResNet resolvió este problema introduciendo "conexiones conexiones", que permiten entrenar con éxito redes con cientos o incluso miles de capas manteniendo una alta precisión.
La característica que define a una ResNet es el bloque residual. En una En una red neuronal convolucional (CNN) tradicional, las capas se apilan secuencialmente y cada una de ellas intenta aprender directamente una correspondencia entre las entradas y las salidas. Sin embargo, a medida que las redes se hacen más profundas, la señal de los datos de entrada puede degradarse antes de llegar al final de la red.
ResNet introduce un "atajo" o conexión de salto que permite añadir la entrada de una capa directamente a su salida. su salida. Este mecanismo básicamente indica a la red que aprenda el "residuo" (la diferencia) entre la entrada y la salida óptima, en lugar de aprender toda la transformación desde cero. la entrada y la salida óptima, en lugar de aprender toda la transformación desde cero. Esta arquitectura conserva el flujo de información y facilita una mejor extracción de características, lo que permite capturar patrones complejos como texturas y formas sin perder los datos de entrada originales. Puede leer el artículo original el documento original Deep Residual Learning for Image Recognition los fundamentos matemáticos.
ResNet se considera la columna vertebral de muchos sistemas de visión modernos. Su capacidad para entrenar redes muy profundas permite la creación de modelos muy robustos que en conjuntos de datos a gran escala como ImageNet.
La arquitectura es especialmente significativa para aprendizaje por transferencia. Dado que los modelos ResNet han aprendido ricos mapas de características a partir de de datos, pueden ajustarse a tareas específicas con conjuntos de datos relativamente pequeños. Esta versatilidad hace que ResNet una opción estándar para tareas que van desde clasificación de imágenes hasta el análisis vídeo.
La estabilidad y profundidad que ofrece ResNet han permitido su uso en entornos críticos y de alto riesgo.
Resulta útil distinguir ResNet de otras arquitecturas comunes que se encuentran en bibliotecas de aprendizaje profundo como PyTorch o TensorFlow:
Puede aprovechar fácilmente los modelos ResNet para tareas de clasificación utilizando la función ultralytics Paquete Python . Este
le permite acceder a los pesos preentrenados y realizar inferencias con un código mínimo.
from ultralytics import YOLO
# Load a pre-trained ResNet50 model capable of classifying images
model = YOLO("resnet50.pt") # Downloads the model weights automatically
# Perform inference on an image URL
results = model("https://ultralytics.com/images/bus.jpg")
# Display the top classification result
print(f"Top class: {results[0].names[results[0].probs.top1]}")
Para los interesados en comprender la teoría en profundidad, cursos como CS231n de Stanford ofrecen excelentes recursos académicos sobre arquitecturas de CNN. Tanto si está construyendo un simple clasificador como un complejo sistema de fabricación inteligente, comprender ResNet es ResNet es esencial para dominar la visión por ordenador moderna.