¿Qué es ResNet-50 y cuál es su importancia en la visión por ordenador?

Abirami Vina

5 minutos de lectura

27 de mayo de 2025

Descubra cómo la arquitectura de ResNet-50 permite la clasificación de imágenes en aplicaciones del mundo real relacionadas con la sanidad, la fabricación y los sistemas autónomos.

El análisis automatizado de imágenes es cada vez más común en aplicaciones como la detección de coches que circulan a gran velocidad o el análisis de imágenes médicas. La tecnología que impulsa estas innovaciones es la visión por ordenador o Vision AI. Se trata de una rama de la inteligencia artificial (IA) que permite a las máquinas interpretar y comprender imágenes y vídeos, de forma muy parecida a como lo hacen los humanos. 

Para crear este tipo de soluciones de visión por ordenador, los desarrolladores recurren a modelos de IA de visión capaces de aprender de grandes cantidades de datos visuales. A lo largo de los años, los investigadores han desarrollado modelos nuevos y más avanzados con un rendimiento impresionante en tareas de IA de visión como la clasificación de imágenes (asignar etiquetas a las imágenes), la detección de objetos (localizar e identificar objetos dentro de las imágenes) y la segmentación de instancias (detectar objetos y delinear sus formas exactas).

Sin embargo, echar la vista atrás y comprender los modelos anteriores puede ayudar a entender cómo funcionan los sistemas actuales de visión por ordenador. Por ejemplo, un ejemplo clave es ResNet-50, un influyente modelo que introdujo la idea de las conexiones de acceso directo, vías sencillas que ayudan al modelo a aprender más rápido y con mayor precisión.

Esta innovación permitió entrenar eficazmente redes neuronales mucho más profundas, lo que dio lugar a mejoras significativas en la clasificación de imágenes y determinó el diseño de muchos modelos posteriores. En este artículo exploraremos ResNet-50, su funcionamiento y su relevancia en la evolución de la visión por ordenador. Empecemos.

¿Qué es ResNet-50? 

ResNet-50 es un modelo de visión por ordenador basado en un tipo de red neuronal denominada red neuronal convolucional (CNN). Las CNN están diseñadas para ayudar a los ordenadores a comprender la información visual aprendiendo patrones de las imágenes, como bordes, colores o formas, y utilizándolos para reconocer y clasificar objetos. 

Presentado en 2015 por investigadores de Microsoft Research, ResNet-50 se convirtió rápidamente en uno de los modelos más impactantes del sector por su precisión y eficacia en tareas de reconocimiento de imágenes a gran escala.

Una característica clave de ResNet-50 es el uso de conexiones residuales, también conocidas como conexiones de acceso directo. Se trata de vías sencillas que permiten al modelo saltarse algunos pasos del proceso de aprendizaje. En otras palabras, en lugar de obligar al modelo a pasar información por cada una de las capas, estos atajos le permiten transmitir detalles importantes de forma más directa. Esto hace que el aprendizaje sea más rápido y fiable.

__wf_reserved_inherit
Fig. 1. Un vistazo a las conexiones residuales en la arquitectura ResNet.

Este diseño ayuda a resolver un problema común en el aprendizaje profundo llamado el problema del gradiente evanescente. En los modelos muy profundos, la información importante puede perderse a medida que se desplaza por muchas capas, lo que dificulta el aprendizaje del modelo. 

Las conexiones residuales ayudan a evitarlo al mantener un flujo de información claro de principio a fin. Por eso el modelo se llama ResNet-50: ResNet significa Red Residual, y "50" se refiere al número de capas que utiliza para procesar una imagen. 

Resumen del funcionamiento de ResNet-50

ResNet-50 tiene una estructura bien organizada que permite al modelo profundizar sin perder información importante. Sigue un patrón sencillo y repetible que mantiene la eficiencia y, al mismo tiempo, permite un gran rendimiento. 

A continuación le explicamos cómo funciona la arquitectura ResNet-50:

  • básico extracción de características: El modelo comienza aplicando una operación matemática llamada convolución. Consiste en deslizar pequeños filtros (llamados kernels) sobre la imagen para producir mapas de características, es decir, nuevas versiones de la imagen que resaltan patrones básicos como bordes o texturas. Así es como el modelo empieza a captar información visual útil.
  • Aprendizaje de características complejas: A medida que los datos se desplazan por la red, el tamaño de los mapas de características se reduce. Esto se consigue mediante técnicas como la agrupación o el uso de filtros con pasos más grandes (llamados strides). Al mismo tiempo, la red crea más mapas de características, lo que le ayuda a captar patrones cada vez más complejos, como formas, partes de objetos o texturas.
  • Compresión y expansión de datos: Cada etapa comprime los datos, los procesa y luego los vuelve a expandir. Esto ayuda al modelo a aprender ahorrando memoria.
  • Conexiones de acceso directo: Son caminos sencillos que permiten que la información salte en lugar de pasar por todas las capas. Hacen que el aprendizaje sea más estable y eficiente.
  • Hacer una predicción: Al final de la red, toda la información aprendida se combina y pasa por una función softmax. Se obtiene así una distribución de probabilidades entre las clases posibles, que indica la confianza del modelo en cada predicción: por ejemplo, 90% gato, 9% perro, 1% coche.
__wf_reserved_inherit
Fig. 2. Arquitectura de ResNet-50.

Características principales de ResNet-50

Aunque ResNet-50 se diseñó originalmente para la clasificación de imágenes, su diseño flexible lo ha hecho útil en muchas áreas de la visión por ordenador. Veamos algunas de las características que hacen destacar a ResNet-50.

Utilización de ResNet-50 para la clasificación de imágenes

ResNet-50 se utiliza principalmente para la clasificación de imágenes, donde el objetivo es asignar una etiqueta a una imagen. Por ejemplo, dada una foto, el modelo puede etiquetarla como perro, gato o avión basándose en el objeto principal que ve. 

Su diseño fiable y su disponibilidad en bibliotecas de aprendizaje profundo de uso generalizado, como PyTorch y TensorFlow, convirtieron a ResNet-50 en una de las primeras opciones populares para el entrenamiento en grandes conjuntos de datos de imágenes. Uno de los ejemplos más conocidos es ImageNet, una colección masiva de imágenes etiquetadas que se utiliza para evaluar y comparar modelos de visión por ordenador.

Aunque los modelos más recientes, como Ultralytics YOLO11, lo superan, ResNet-50 sigue utilizándose habitualmente como referencia gracias a su sólido equilibrio entre precisión, velocidad y sencillez.

__wf_reserved_inherit
Fig. 3. Ejemplo de utilización de ResNet-50 para clasificar un perro.

Detección de objetos gracias a las redes troncales ResNet-50

Mientras que la clasificación de imágenes consiste en identificar el objeto principal de una imagen, la detección de objetos va un paso más allá al encontrar y etiquetar múltiples objetos en la misma imagen. Por ejemplo, en una imagen de una calle muy transitada, un modelo puede tener que detectar coches, autobuses y personas, y averiguar dónde está cada uno.

ResNet-50 se utiliza como columna vertebral en algunos de estos modelos. Esto significa que se encarga de la primera parte del trabajo: analizar la imagen y extraer los detalles importantes que describen qué hay en ella y dónde. Estos detalles se transmiten a la siguiente parte del modelo, llamada cabeza de detección, que toma las decisiones finales sobre qué objetos hay en la imagen y dónde están.

Los modelos de detección más conocidos, como Faster R-CNN y DETR, utilizan ResNet-50 para este paso de extracción de características. Gracias a su capacidad para captar tanto los detalles más pequeños como el diseño general de una imagen, estos modelos pueden realizar predicciones precisas, incluso en escenas complejas.

Aprendizaje por transferencia con ResNet-50

Otro aspecto interesante del modelo ResNet-50 es su capacidad de aprendizaje por transferencia. Esto significa que el modelo, entrenado originalmente en un gran conjunto de datos como ImageNet para la clasificación de imágenes, puede adaptarse a nuevas tareas con muchos menos datos.

En lugar de empezar de cero, se reutiliza la mayoría de las capas del modelo y sólo se sustituye la capa de clasificación final y se vuelve a entrenar para la nueva tarea. Esto ahorra tiempo y es especialmente útil cuando los datos etiquetados son limitados.

Aplicaciones de visión computerizada de ResNet-50

La arquitectura de ResNet-50 la hizo útil para una amplia gama de aplicaciones de visión por ordenador. Fue especialmente importante en los inicios del aprendizaje profundo, ya que ayudó a que la tecnología de IA de visión pasara de la investigación al uso en el mundo real. Al resolver retos clave, ayudó a allanar el camino para los modelos más avanzados que vemos en las aplicaciones actuales.

Imágenes médicas impulsadas por ResNet-50

ResNet-50 fue uno de los primeros modelos utilizados en imágenes médicas basadas en aprendizaje profundo. Los investigadores lo han utilizado para identificar patrones de enfermedades en radiografías, resonancias magnéticas y otras exploraciones diagnósticas. Por ejemplo, ha ayudado a detectar tumores y clasificar imágenes de retina diabética para apoyar el diagnóstico en oftalmología.

Aunque en la actualidad se utilizan modelos más avanzados en herramientas clínicas, ResNet-50 desempeñó un papel fundamental en las primeras investigaciones sobre IA médica. Su facilidad de uso y su diseño modular lo convirtieron en una opción idónea para crear prototipos de sistemas de diagnóstico.

__wf_reserved_inherit
Fig. 4. Detección de tumores cerebrales basada en ResNet-50.

Automatización industrial con ResNet-50

Del mismo modo, ResNet-50 también se ha aplicado en entornos industriales. Por ejemplo, en la fabricación, se ha utilizado en sistemas piloto y de investigación para detectar defectos superficiales en materiales como el acero, el hormigón y las piezas pintadas.

También se ha probado en configuraciones para identificar agujeros, grietas o depósitos que se forman durante la fundición o el montaje. ResNet-50 es idóneo para estas tareas porque puede detectar diferencias sutiles en la textura de la superficie, una capacidad importante para la inspección de calidad.

Aunque modelos más avanzados como YOLO11 se utilizan ahora habitualmente en sistemas de producción, ResNet-50 sigue desempeñando un papel importante en la investigación académica y la evaluación comparativa, sobre todo en tareas de clasificación de imágenes.

__wf_reserved_inherit
Fig. 6. Inspección de superficies con Resnet-50.

Ventajas y limitaciones de ResNet-50

He aquí algunas de las ventajas de ResNet-50:

  • Sólido rendimiento de referencia: ResNet-50 ofrece una sólida precisión en una amplia gama de tareas, lo que la convierte en una referencia de confianza tanto en proyectos de investigación como aplicados.
  • Bien documentado y ampliamente estudiado: Su arquitectura se conoce bien y está ampliamente documentada, lo que facilita la resolución de problemas y el aprendizaje a desarrolladores e investigadores.
  • Versátil en todos los ámbitos: Desde la obtención de imágenes médicas hasta la fabricación, ResNet-50 se ha aplicado con éxito a una gran variedad de problemas del mundo real, lo que demuestra su flexibilidad.

Mientras tanto, he aquí un atisbo de las limitaciones de ResNet-50:

  • Alto consumo de recursos: ResNet-50 requiere más memoria y potencia de cálculo que los modelos ligeros, lo que puede hacerlo menos adecuado para dispositivos móviles o aplicaciones en tiempo real.

  • Sobreajuste en conjuntos de datos conjuntos de datos: Debido a su profundidad y complejidad, ResNet-50 puede sobreajustarse cuando se entrena con datos limitados sin las técnicas de regularización adecuadas.
  • Tamaño de entrada fijo: ResNet-50 suele esperar que las imágenes tengan un tamaño específico, como 224×224 píxeles, por lo que a menudo es necesario redimensionarlas o recortarlas, lo que a veces puede eliminar detalles importantes.

Principales conclusiones

ResNet-50 demostró que las redes muy profundas podían entrenarse de forma eficaz y, al mismo tiempo, ofrecer un gran rendimiento en tareas visuales. Su arquitectura ofrecía un marco claro y práctico para construir modelos más profundos que funcionaran de forma fiable. 

Tras su lanzamiento, los investigadores ampliaron el diseño y crearon versiones más profundas como ResNet-101 y ResNet-152. En general, ResNet-50 es un modelo clave que ayudó a dar forma a la forma en que el aprendizaje profundo se utiliza hoy en día en la visión por ordenador.

Únase a nuestra creciente comunidad Explora nuestro repositorio GitHub para aprender más sobre IA. ¿Listo para empezar tus propios proyectos de visión por ordenador? Consulte nuestras opciones de licencia. Descubra la IA en la agricultura y la IA de visión en la sanidad visitando nuestras páginas de soluciones. 

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles