Yolo Vision Shenzhen
Shenzhen
Únete ahora

¿Qué es Mask R-CNN y cómo funciona?

Abirami Vina

4 minutos de lectura

21 de marzo de 2025

Aprenda cómo se puede utilizar Mask R-CNN para segmentar con precisión objetos en imágenes y vídeos para diversas aplicaciones en diferentes sectores.

Innovaciones como robots en almacenes, coches autónomos que se mueven con seguridad por calles concurridas, drones que revisan los cultivos y sistemas de IA que inspeccionan productos en fábricas son cada vez más comunes a medida que aumenta la adopción de la IA. Una tecnología clave que impulsa estas innovaciones es la visión artificial, una rama de la IA que permite a las máquinas comprender e interpretar datos visuales.

Por ejemplo, la detección de objetos es una tarea de visión artificial que ayuda a identificar y localizar objetos en imágenes mediante el uso de cuadros delimitadores. Si bien los cuadros delimitadores ofrecen información útil, solo proporcionan una estimación aproximada de la posición de un objeto y no pueden capturar su forma o límites exactos. Esto los hace menos efectivos en aplicaciones que requieren una identificación precisa.

Para solucionar este problema, los investigadores desarrollaron modelos de segmentación que capturan los contornos exactos de los objetos, proporcionando detalles a nivel de píxel para una detección y un análisis más precisos.

Mask R-CNN es uno de estos modelos. Presentado en 2017 por Facebook AI Research (FAIR), se basa en modelos anteriores como R-CNN, Fast R-CNN y Faster R-CNN. Como un hito importante en la historia de la visión artificial, Mask R-CNN ha allanado el camino para modelos más avanzados, como Ultralytics YOLO11.

En este artículo, exploraremos qué es Mask R-CNN, cómo funciona, sus aplicaciones y qué mejoras surgieron después, lo que llevó a YOLO11.

Una visión general de Mask R-CNN

Mask R-CNN, que significa Mask Region-based Convolutional Neural Network (Red Neuronal Convolucional basada en Regiones con Máscara), es un modelo de aprendizaje profundo diseñado para tareas de visión artificial como la detección de objetos y la segmentación de instancias. 

La segmentación de instancias va más allá de la detección de objetos tradicional, ya que no solo identifica objetos en una imagen, sino que también delinea con precisión cada uno de ellos. Asigna una etiqueta única a cada objeto detectado y captura su forma exacta a nivel de píxel. Este enfoque detallado permite distinguir claramente entre objetos superpuestos y manejar con precisión formas complejas.

Mask R-CNN se basa en Faster R-CNN, que detecta y etiqueta objetos, pero no define sus formas exactas. Mask R-CNN mejora esto identificando los píxeles exactos que componen cada objeto, lo que permite un análisis de imagen mucho más detallado y preciso.

Fig. 1. Comparación de la detección de objetos y la segmentación de instancias.

Un vistazo a la arquitectura de Mask R-CNN y cómo funciona

Mask R-CNN adopta un enfoque paso a paso para detectar y segmentar objetos con precisión. Comienza extrayendo características clave utilizando una red neuronal profunda (un modelo multicapa que aprende de los datos), luego identifica áreas potenciales de objetos con una red de propuesta de regiones (un componente que sugiere regiones de objetos probables) y, finalmente, refina estas áreas creando máscaras de segmentación detalladas (contornos precisos de objetos) que capturan la forma exacta de cada objeto.

A continuación, repasaremos cada paso para tener una mejor idea de cómo funciona Mask R-CNN.

Fig. 2. Vista general de la arquitectura de Mask R-CNN (Fuente: researchgate.net).

Comenzando con la extracción de características

El primer paso en la arquitectura de Mask R-CNN es descomponer la imagen en sus partes clave para que el modelo pueda entender lo que hay en ella. Piense en ello como cuando mira una foto y naturalmente nota detalles como formas, colores y bordes. El modelo hace algo similar utilizando una red neuronal profunda llamada "backbone" (a menudo ResNet-50 o ResNet-101), que actúa como sus ojos para escanear la imagen y captar los detalles clave.

Dado que los objetos en las imágenes pueden ser muy pequeños o muy grandes, Mask R-CNN utiliza una Red de Pirámide de Características (Feature Pyramid Network). Esto es como tener diferentes lupas que permiten al modelo ver tanto los detalles finos como la imagen más grande, asegurando que los objetos de todos los tamaños sean detectados.

Una vez que se han extraído estas características importantes, el modelo pasa a localizar los objetos potenciales en la imagen, preparando el terreno para un análisis más profundo.

Sugerir áreas potenciales en la imagen con objetos

Una vez que la imagen ha sido procesada para obtener las características clave, la Red de Propuesta de Regiones (Region Proposal Network) toma el relevo. Esta parte del modelo examina la imagen y sugiere áreas que probablemente contengan objetos.

Lo hace generando múltiples ubicaciones de objetos posibles llamadas anclas. A continuación, la red evalúa estas anclas y selecciona las más prometedoras para su posterior análisis. De esta forma, el modelo se centra únicamente en las áreas con mayor probabilidad de ser interesantes, en lugar de comprobar cada punto de la imagen.

Fig. 3. Un ejemplo de una red de propuesta de regiones (Region Proposal Network).

Mejora de las características extraídas 

Una vez identificadas las áreas clave, el siguiente paso es refinar los detalles extraídos de estas regiones. Los modelos anteriores utilizaban un método llamado ROI Pooling (Region of Interest Pooling) para capturar características de cada área, pero esta técnica a veces provocaba ligeras desalineaciones al cambiar el tamaño de las regiones, lo que la hacía menos eficaz, especialmente para objetos más pequeños o superpuestos.

Mask R-CNN mejora esto utilizando una técnica conocida como ROI Align (Alineación de Región de Interés). En lugar de redondear las coordenadas como lo hace ROI Pooling, ROI Align utiliza la interpolación bilineal para estimar los valores de los píxeles con mayor precisión. La interpolación bilineal es un método que calcula un nuevo valor de píxel promediando los valores de sus cuatro vecinos más cercanos, lo que crea transiciones más suaves. Esto mantiene las características correctamente alineadas con la imagen original, lo que resulta en una detección y segmentación de objetos más precisas.

Por ejemplo, en un partido de fútbol, dos jugadores que están muy juntos pueden confundirse entre sí porque sus "bounding boxes" se superponen. ROI Align ayuda a separarlos manteniendo sus formas distintas. 

Fig. 4. Mask R-CNN utiliza ROI Align.

Clasificación de objetos y predicción de sus máscaras

Una vez que ROI Align procesa la imagen, el siguiente paso es clasificar los objetos y ajustar sus ubicaciones. El modelo examina cada región extraída y decide qué objeto contiene. Asigna una puntuación de probabilidad a las diferentes categorías y elige la que mejor se ajusta.

Al mismo tiempo, ajusta los cuadros delimitadores para que se adapten mejor a los objetos. Es posible que los cuadros iniciales no estén colocados de manera ideal, por lo que esto ayuda a mejorar la precisión al asegurar que cada cuadro rodee estrechamente el objeto detectado.

Finalmente, Mask R-CNN da un paso más: genera una máscara de segmentación detallada para cada objeto en paralelo.

Mask R-CNN y sus aplicaciones en tiempo real

Cuando salió este modelo, fue recibido con mucho entusiasmo por la comunidad de la IA y pronto se utilizó en diversas aplicaciones. Su capacidad para detectar y segmentar objetos en tiempo real lo convirtió en un punto de inflexión en diferentes industrias.

Por ejemplo, el seguimiento de animales en peligro de extinción en la naturaleza es una tarea difícil. Muchas especies se mueven a través de densos bosques, lo que dificulta a los conservacionistas su seguimiento. Los métodos tradicionales utilizan cámaras trampa, drones e imágenes de satélite, pero clasificar todos estos datos a mano lleva mucho tiempo. Las identificaciones erróneas y las omisiones pueden ralentizar los esfuerzos de conservación.

Al reconocer características únicas como las rayas de tigre, las manchas de jirafa o la forma de las orejas de un elefante, Mask R-CNN puede detectar y segmentar animales en imágenes y videos con mayor precisión. Incluso cuando los animales están parcialmente ocultos por árboles o están muy juntos, el modelo puede separarlos e identificar a cada uno individualmente, lo que hace que el monitoreo de la vida silvestre sea más rápido y confiable.

Fig 5. Detección y segmentación de animales utilizando Mask R-CNN.

Limitaciones de Mask R-CNN

A pesar de su importancia histórica en la detección y segmentación de objetos, Mask R-CNN también presenta algunos inconvenientes clave. Estos son algunos de los desafíos relacionados con Mask R-CNN:

  • Alta demanda computacional: Depende de GPUs potentes, lo que puede hacer que su ejecución sea costosa y lenta al procesar grandes cantidades de datos.

  • Menor velocidad de procesamiento: Su proceso de múltiples etapas hace que sea más lento en comparación con modelos en tiempo real más rápidos como YOLO, lo que podría no ser ideal para tareas sensibles al tiempo.

  • Dependencia de datos de alta calidad: El modelo funciona mejor con imágenes claras y bien etiquetadas. Las imágenes borrosas o mal iluminadas pueden reducir significativamente su precisión.
  • Implementación compleja: La arquitectura de múltiples etapas puede ser difícil de configurar y optimizar, especialmente cuando se trata de grandes conjuntos de datos o recursos limitados.

Desde Mask R-CNN hasta Ultralytics YOLO11

Mask R-CNN fue excelente para las tareas de segmentación, pero muchas industrias buscaban adoptar la visión artificial priorizando la velocidad y el rendimiento en tiempo real. Este requisito llevó a los investigadores a desarrollar modelos de una sola etapa que detectan objetos en una sola pasada, lo que mejora enormemente la eficiencia.

A diferencia del proceso de varios pasos de Mask R-CNN, los modelos de visión artificial de una sola etapa como YOLO (You Only Look Once) se centran en tareas de visión artificial en tiempo real. En lugar de gestionar la detección y la segmentación por separado, los modelos YOLO pueden analizar una imagen de una sola vez. Esto lo hace ideal para aplicaciones como la conducción autónoma, la sanidad, la fabricación y la robótica, donde la toma de decisiones rápida es crucial.

En particular, YOLO11 va un paso más allá al ser rápido y preciso. Utiliza un 22% menos de parámetros que YOLOv8m, pero aun así logra una mayor precisión media (mAP) en el conjunto de datos COCO, lo que significa que detecta los objetos con mayor precisión. Su velocidad de procesamiento mejorada lo convierte en una buena opción para aplicaciones en tiempo real donde cada milisegundo importa.

Fig 6. El rendimiento de YOLO11 en comparación con otros modelos.

Conclusiones clave

Echando la vista atrás a la historia de la visión artificial, Mask R-CNN es reconocido como un gran avance en la detección y segmentación de objetos. Ofrece resultados muy precisos incluso en entornos complejos, gracias a su detallado proceso de varios pasos. 

Sin embargo, este mismo proceso lo hace más lento en comparación con los modelos en tiempo real como YOLO. A medida que crece la necesidad de velocidad y eficiencia, muchas aplicaciones ahora usan modelos de una sola etapa como Ultralytics YOLO11, que ofrecen una detección de objetos rápida y precisa. Si bien Mask R-CNN es importante con respecto a la comprensión de la evolución de la visión artificial, la tendencia hacia las soluciones en tiempo real destaca la creciente demanda de soluciones de visión artificial más rápidas y eficientes.

¡Únete a nuestra creciente comunidad! Explora nuestro repositorio de GitHub para obtener más información sobre la IA. ¿Listo para comenzar tus propios proyectos de visión artificial? Consulta nuestras opciones de licencia. ¡Descubre la IA en la agricultura y la IA de visión en la atención médica visitando nuestras páginas de soluciones! 

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis
Enlace copiado al portapapeles