¿Qué es Mask R-CNN y cómo funciona?
Aprende cómo se puede utilizar Mask R-CNN para segmentar objetos con precisión en imágenes y vídeos para diversas aplicaciones en distintos sectores.

Innovaciones como robots en almacenes, coches autónomos moviéndose de forma segura por calles concurridas, drones inspeccionando cultivos y sistemas de IA analizando productos en fábricas se vuelven más comunes a medida que aumenta la adopción de la IA. Una tecnología clave que impulsa estas innovaciones es la visión artificial, una rama de la IA que permite a las máquinas entender e interpretar datos visuales.
Por ejemplo, la detección de objetos es una tarea de visión artificial que ayuda a identificar y localizar objetos en imágenes mediante cuadros delimitadores (bounding boxes). Aunque los cuadros delimitadores ofrecen información útil, solo proporcionan una estimación aproximada de la posición de un objeto y no pueden capturar su forma o límites exactos. Esto los hace menos eficaces en aplicaciones que requieren una identificación precisa.
Para resolver este problema, los investigadores desarrollaron modelos de segmentación que capturan los contornos exactos de los objetos, proporcionando detalles a nivel de píxel para una detección y análisis más precisos.
Mask R-CNN es uno de estos modelos. Presentado en 2017 por Facebook AI Research (FAIR), se basa en modelos anteriores como R-CNN, Fast R-CNN y Faster R-CNN. Como un hito importante en la historia de la visión artificial, Mask R-CNN ha allanado el camino para modelos más avanzados, como Ultralytics YOLO11.
En este artículo, exploraremos qué es Mask R-CNN, cómo funciona, sus aplicaciones y qué mejoras surgieron después, lo que nos lleva a YOLO11.
Link to this sectionUna visión general de Mask R-CNN#
Mask R-CNN, que significa Mask Region-based Convolutional Neural Network, es un modelo de aprendizaje profundo diseñado para tareas de visión artificial como la detección de objetos y la segmentación de instancias.
La segmentación de instancias va más allá de la detección de objetos tradicional, no solo identificando objetos en una imagen, sino también perfilando con precisión cada uno de ellos. Asigna una etiqueta única a cada objeto detectado y captura su forma exacta a nivel de píxel. Este enfoque detallado permite distinguir claramente entre objetos superpuestos y manejar formas complejas con precisión.
Mask R-CNN se basa en Faster R-CNN, que detecta y etiqueta objetos pero no define sus formas exactas. Mask R-CNN mejora esto al identificar los píxeles exactos que conforman cada objeto, permitiendo un análisis de imagen mucho más detallado y preciso.

Fig 1. Comparación entre la detección de objetos y la segmentación de instancias.
Link to this sectionUn vistazo a la arquitectura de Mask R-CNN y cómo funciona#
Mask R-CNN utiliza un enfoque paso a paso para detectar y segmentar objetos con precisión. Comienza extrayendo características clave mediante una red neuronal profunda (un modelo de múltiples capas que aprende de los datos), luego identifica áreas potenciales de objetos con una red de propuesta de regiones (un componente que sugiere regiones probables de objetos) y finalmente refina estas áreas creando máscaras de segmentación detalladas (contornos precisos de los objetos) que capturan la forma exacta de cada uno.
A continuación, repasaremos cada paso para tener una mejor idea de cómo funciona Mask R-CNN.

Fig 2. Una visión general de la arquitectura de Mask R-CNN (Fuente: researchgate.net).
Link to this sectionComenzando con la extracción de características#
El primer paso en la arquitectura de Mask R-CNN es descomponer la imagen en sus partes clave para que el modelo pueda entender qué hay en ella. Piénsalo como cuando miras una foto y notas de forma natural detalles como formas, colores y bordes. El modelo hace algo similar usando una red neuronal profunda llamada "backbone" (a menudo ResNet-50 o ResNet-101), que actúa como sus ojos para escanear la imagen y captar detalles clave.
Dado que los objetos en las imágenes pueden ser muy pequeños o muy grandes, Mask R-CNN utiliza una Feature Pyramid Network. Es como tener diferentes lupas que permiten al modelo ver tanto los detalles finos como la imagen completa, asegurando que se detecten objetos de todos los tamaños.
Una vez que estas características se extraen, el modelo procede a localizar los objetos potenciales en la imagen, preparando el terreno para un análisis posterior.
Link to this sectionSugerir áreas potenciales en la imagen con objetos#
Después de procesar la imagen para obtener características clave, la Region Proposal Network toma el control. Esta parte del modelo observa la imagen y sugiere áreas que es probable que contengan objetos.
Esto lo hace generando múltiples ubicaciones de objetos posibles llamadas anchors. La red evalúa entonces estos anchors y selecciona los más prometedores para su posterior análisis. De esta forma, el modelo se centra solo en las áreas más interesantes, en lugar de comprobar cada punto de la imagen.

Fig 3. Un ejemplo de una Region Proposal Network.
Link to this sectionMejora de las características extraídas#
Con las áreas clave identificadas, el siguiente paso es refinar los detalles extraídos de estas regiones. Los modelos anteriores utilizaban un método llamado ROI Pooling (Region of Interest Pooling) para capturar características de cada área, pero esta técnica a veces provocaba ligeras desalineaciones al cambiar el tamaño de las regiones, lo que la hacía menos eficaz, especialmente para objetos más pequeños o superpuestos.
Mask R-CNN mejora esto utilizando una técnica denominada ROI Align (Region of Interest Align). En lugar de redondear las coordenadas como hace ROI Pooling, ROI Align utiliza interpolación bilineal para estimar los valores de píxel con mayor precisión. La interpolación bilineal es un método que calcula un nuevo valor de píxel promediando los valores de sus cuatro vecinos más cercanos, lo que crea transiciones más suaves. Esto mantiene las características correctamente alineadas con la imagen original, lo que resulta en una detección y segmentación de objetos más precisa.
Por ejemplo, en un partido de fútbol, dos jugadores de pie uno cerca del otro podrían confundirse porque sus cajas delimitadoras se superponen. ROI Align ayuda a separarlos manteniendo sus formas distintas.

Fig 4. Mask R-CNN utiliza ROI Align.
Link to this sectionClasificación de objetos y predicción de sus máscaras#
Una vez que ROI Align procesa la imagen, el siguiente paso es clasificar los objetos y ajustar sus ubicaciones. El modelo observa cada región extraída y decide qué objeto contiene. Asigna una puntuación de probabilidad a diferentes categorías y elige la mejor coincidencia.
Al mismo tiempo, ajusta las cajas delimitadoras para que se adapten mejor a los objetos. Es posible que las cajas iniciales no estén colocadas idealmente, por lo que esto ayuda a mejorar la precisión asegurando que cada caja rodee estrechamente el objeto detectado.
Finalmente, Mask R-CNN da un paso adicional: genera una máscara de segmentación detallada para cada objeto en paralelo.
Link to this sectionMask R-CNN y sus aplicaciones en tiempo real#
Cuando este modelo salió, fue recibido con mucho entusiasmo por la comunidad de IA y pronto se utilizó en diversas aplicaciones. Su capacidad para detectar y segmentar objetos en tiempo real lo convirtió en un punto de inflexión en diferentes industrias.
Por ejemplo, el seguimiento de animales en peligro de extinción en la naturaleza es una tarea difícil. Muchas especies se mueven a través de bosques densos, lo que dificulta que los conservacionistas les sigan la pista. Los métodos tradicionales utilizan cámaras trampa, drones e imágenes de satélite, pero clasificar todos estos datos a mano consume mucho tiempo. Las identificaciones erróneas y los avistamientos perdidos pueden ralentizar los esfuerzos de conservación.
Al reconocer características únicas como las rayas de un tigre, las manchas de una jirafa o la forma de las orejas de un elefante, Mask R-CNN puede detectar y segmentar animales en imágenes y vídeos con mayor precisión. Incluso cuando los animales están parcialmente ocultos por árboles o de pie muy cerca unos de otros, el modelo puede separarlos e identificar a cada uno individualmente, haciendo que el monitoreo de la vida silvestre sea más rápido y fiable.

Fig 5. Detectar y segmentar animales usando Mask R-CNN.
Link to this sectionLimitaciones de Mask R-CNN#
A pesar de su importancia histórica en la detección y segmentación de objetos, Mask R-CNN también conlleva algunos inconvenientes clave. Estos son algunos de los desafíos relacionados con Mask R-CNN:
- Alta demanda computacional: Depende de potentes GPUs, lo que puede hacerlo costoso de ejecutar y lento al procesar grandes cantidades de datos.
- Velocidad de procesamiento más lenta: Su proceso de varias etapas lo hace más lento en comparación con modelos de tiempo real más rápidos como YOLO, lo que podría no ser ideal para tareas sensibles al tiempo.
- Dependencia de datos de alta calidad: El modelo funciona mejor con imágenes claras y bien etiquetadas. Las imágenes borrosas o con poca iluminación pueden reducir significativamente su precisión.
- Implementación compleja: La arquitectura de varias etapas puede ser difícil de configurar y optimizar, especialmente cuando se trabaja con grandes conjuntos de datos o recursos limitados.
Link to this sectionDe Mask R-CNN a Ultralytics YOLO11#
Mask R-CNN fue excelente para tareas de segmentación, pero muchas industrias buscaban adoptar la visión artificial priorizando la velocidad y el rendimiento en tiempo real. Este requisito llevó a los investigadores a desarrollar modelos de una sola etapa que detectan objetos en una sola pasada, mejorando enormemente la eficiencia.
A diferencia del proceso de varios pasos de Mask R-CNN, los modelos de visión artificial de una sola etapa como YOLO (You Only Look Once) se centran en tareas de visión artificial en tiempo real. En lugar de manejar la detección y la segmentación por separado, los modelos YOLO pueden analizar una imagen de una vez. Esto lo hace ideal para aplicaciones como la conducción autónoma, la atención sanitaria, la fabricación y la robótica, donde la toma de decisiones rápida es crucial.
En particular, YOLO11 va un paso más allá al ser rápido y preciso a la vez. Utiliza un 22% menos de parámetros que YOLOv8m pero aun así logra una precisión media media (mAP) más alta en el conjunto de datos COCO, lo que significa que detecta objetos con mayor precisión. Su velocidad de procesamiento mejorada lo convierte en una buena opción para aplicaciones en tiempo real donde cada milisegundo cuenta.

Fig 6. Rendimiento de YOLO11 en comparación con otros modelos.
Link to this sectionConclusiones clave#
Mirando hacia atrás en la historia de la visión artificial, Mask R-CNN es reconocido como un avance importante en la detección y segmentación de objetos. Ofrece resultados muy precisos incluso en entornos complejos, gracias a su detallado proceso de varias etapas.
Sin embargo, este mismo proceso lo hace más lento en comparación con modelos de tiempo real como YOLO. A medida que crece la necesidad de velocidad y eficiencia, muchas aplicaciones utilizan ahora modelos de una sola etapa como Ultralytics YOLO11, que ofrecen una detección de objetos rápida y precisa. Aunque Mask R-CNN es importante respecto a la comprensión de la evolución de la visión artificial, la tendencia hacia soluciones en tiempo real destaca la creciente demanda de soluciones de visión artificial más rápidas y eficientes.
¡Únete a nuestra creciente comunidad! Explora nuestro repositorio de GitHub para aprender más sobre IA. ¿Estás listo para empezar tus propios proyectos de visión artificial? Consulta nuestras opciones de licencia. ¡Descubre la IA en la agricultura y la IA visual en la sanidad visitando nuestras páginas de soluciones!






