Aplicaciones del Segment Anything Model 2 (SAM 2) de Meta AI
Únete a nosotros mientras exploramos el Segment Anything Model 2 (SAM 2) de Meta AI y comprendemos para qué aplicaciones en tiempo real puede utilizarse en diversos sectores.

El 29 de julio de 2024, Meta AI lanzó la segunda versión de su Segment Anything Model, SAM 2. ¡El nuevo modelo puede identificar qué píxeles pertenecen a un objeto objetivo tanto en imágenes como en vídeos! La mejor parte es que el modelo es capaz de seguir un objeto de forma consistente a través de todos los fotogramas de un vídeo en tiempo real. SAM 2 abre posibilidades fascinantes para la edición de vídeo, experiencias de realidad mixta y una anotación más rápida de datos visuales para entrenar sistemas de visión artificial.
Basándose en el éxito del SAM original, que se ha utilizado en áreas como la ciencia marina, las imágenes por satélite y la medicina, SAM 2 aborda desafíos como los objetos en rápido movimiento y los cambios de apariencia. Su mayor precisión y eficiencia lo convierten en una herramienta versátil para una amplia gama de aplicaciones. En este artículo, nos centraremos en dónde se puede aplicar SAM 2 y por qué es importante para la comunidad de IA.
Link to this section¿Qué es SAM 2?#
El Segment Anything Model 2 es un modelo base avanzado que admite la segmentación visual con prompts (PVS, por sus siglas en inglés) tanto en imágenes como en vídeos. La PVS es una técnica donde un modelo puede segmentar o identificar diferentes partes de una imagen o vídeo basándose en prompts o entradas específicas proporcionadas por el usuario. Estos prompts pueden ser clics, cajas o máscaras que resaltan el área de interés. Luego, el modelo genera una máscara de segmentación que delimita el área especificada.
La arquitectura de SAM 2 se basa en el SAM original, ampliando la segmentación de imágenes para incluir también la segmentación de vídeo. Cuenta con un decodificador de máscaras ligero que utiliza datos de imagen y prompts para crear máscaras de segmentación. Para los vídeos, SAM 2 introduce un sistema de memoria que le ayuda a recordar información de fotogramas anteriores, lo que garantiza un seguimiento preciso a lo largo del tiempo. El sistema de memoria incluye componentes que almacenan y recuperan detalles sobre los objetos que se están segmentando. SAM 2 también puede gestionar oclusiones, seguir objetos a través de múltiples fotogramas y manejar prompts ambiguos generando varias máscaras posibles. La arquitectura avanzada de SAM 2 lo hace altamente capaz tanto en entornos visuales estáticos como dinámicos.
Específicamente, en lo que respecta a la segmentación de vídeo, SAM 2 logra una mayor precisión con tres veces menos interacciones de usuario en comparación con métodos anteriores. Para la segmentación de imágenes, SAM 2 supera al Segment Anything Model (SAM) original, siendo seis veces más rápido y preciso. Esta mejora se mostró en el artículo de investigación de SAM 2 en 37 conjuntos de datos diferentes, incluidos 23 en los que se había probado SAM anteriormente.

Fig 1. Comparando SAM y SAM 2.
Curiosamente, SAM 2 de Meta AI se desarrolló creando el mayor conjunto de datos de segmentación de vídeo hasta la fecha, el conjunto de datos SA-V. Este extenso conjunto de datos incluye más de 50 000 vídeos y 35,5 millones de máscaras de segmentación, y se recopiló mediante contribuciones interactivas de usuarios. Los anotadores proporcionaron prompts y correcciones para ayudar al modelo a aprender de una amplia variedad de escenarios y tipos de objetos.
Link to this sectionAplicaciones del Segment Anything Model 2#
Gracias a sus capacidades avanzadas en segmentación de imágenes y vídeo, SAM 2 puede utilizarse en diversos sectores. Exploremos algunas de estas aplicaciones.
Link to this sectionSAM 2 impulsa la Realidad Aumentada (RA) y la Realidad Virtual (RV)#
El nuevo modelo de segmentación de Meta AI puede utilizarse para aplicaciones de Realidad Aumentada (RA) y Realidad Virtual (RV). Por ejemplo, SAM 2 puede identificar y segmentar con precisión objetos del mundo real y hacer que la interacción con objetos virtuales se sienta más realista. Puede ser útil en diversos campos como los juegos, la educación y la formación, donde es esencial una interacción realista entre elementos virtuales y reales.
Con dispositivos como las gafas de RA volviéndose más avanzados, las capacidades de SAM 2 pronto podrían integrarse en ellas. Imagina ponerte unas gafas y mirar alrededor de tu salón. Cuando tus gafas segmenten y detecten el cuenco de agua de tu perro, podrían recordarte que lo rellenes, como se muestra en la siguiente imagen. O, si estás cocinando una nueva receta, las gafas podrían identificar los ingredientes en tu encimera y proporcionar instrucciones y consejos paso a paso, mejorando tu experiencia culinaria y asegurando que tengas todos los elementos necesarios a mano.

Fig 2. SAM 2 podría usarse pronto en gafas de RA.
Link to this sectionImágenes de sonar con el Segment Anything Model 2#
La investigación que utiliza el modelo SAM ha demostrado que puede aplicarse en dominios especializados como las imágenes de sonar. Las imágenes de sonar presentan desafíos únicos debido a su baja resolución, altos niveles de ruido y las formas complejas de los objetos dentro de las imágenes. Al ajustar SAM para imágenes de sonar, los investigadores han demostrado su capacidad para segmentar con precisión varios objetos submarinos como escombros marinos, formaciones geológicas y otros elementos de interés. Las imágenes submarinas precisas y fiables pueden utilizarse en la investigación marina, la arqueología submarina, la gestión pesquera y la vigilancia para tareas como el mapeo de hábitats, el descubrimiento de artefactos y la detección de amenazas.

Fig 3. Un ejemplo de uso de SAM ajustado para la segmentación de imágenes de sonar.
Dado que SAM 2 se basa en muchos de los desafíos a los que se enfrenta SAM y los mejora, tiene el potencial de mejorar aún más el análisis de las imágenes de sonar. Sus capacidades de segmentación precisa pueden ayudar en diversas aplicaciones marinas, incluyendo la investigación científica y la pesca. Por ejemplo, SAM 2 puede delimitar eficazmente estructuras submarinas, detectar escombros marinos e identificar objetos en imágenes de sonar de visión frontal, contribuyendo a una exploración y monitorización submarina más precisa y eficiente.
Aquí tienes los beneficios potenciales de usar SAM 2 para analizar imágenes de sonar:
- Eficiencia: Reduce el tiempo y el esfuerzo necesarios para la segmentación manual, permitiendo a los profesionales centrarse más en el análisis y la toma de decisiones.
- Consistencia: Proporciona resultados de segmentación consistentes y reproducibles, esenciales para la investigación y monitorización marina a gran escala.
- Versatilidad: Capaz de manejar una amplia gama de imágenes de sonar, lo que lo hace útil para diversas aplicaciones en la ciencia y la industria marina.
Al integrar SAM 2 en los procesos de imágenes de sonar, la industria marina puede lograr una mayor eficiencia, precisión y fiabilidad en la exploración y el análisis submarino, lo que en última instancia conduce a mejores resultados en la investigación marina.
Link to this sectionUso de SAM 2 en vehículos autónomos#
Otra aplicación de SAM 2 es en vehículos autónomos. SAM 2 puede identificar con precisión objetos como peatones, otros vehículos, señales de tráfico y obstáculos en tiempo real. El nivel de detalle que puede proporcionar SAM 2 es esencial para tomar decisiones de navegación segura y evitar colisiones. Al procesar datos visuales con precisión, SAM 2 ayuda a crear un mapa detallado y fiable del entorno y conduce a una mejor toma de decisiones.

Fig 4. Uso de la segmentación para entender el tráfico.
La capacidad de SAM 2 para funcionar bien en diferentes condiciones de iluminación, cambios climáticos y entornos dinámicos lo hace fiable para los vehículos autónomos. Ya sea una calle urbana con mucho tráfico o una autopista con niebla, SAM 2 puede identificar y segmentar objetos de forma consistente y precisa para que el vehículo pueda responder correctamente a diversas situaciones.
Sin embargo, hay algunas limitaciones a tener en cuenta. Para objetos complejos y de rápido movimiento, SAM 2 a veces puede perder detalles finos, y sus predicciones pueden volverse inestables a lo largo de los fotogramas. Además, SAM 2 a veces puede confundir varios objetos de aspecto similar en escenas concurridas. Estos desafíos son la razón por la que la integración de sensores y tecnologías adicionales es fundamental en las aplicaciones de conducción autónoma.
Link to this sectionMonitorización medioambiental con la ayuda de SAM 2#
La monitorización medioambiental mediante visión artificial puede ser complicada, especialmente cuando falta información anotada, pero eso es también lo que la convierte en una aplicación interesante para SAM 2. SAM 2 puede utilizarse para rastrear y analizar los cambios en los paisajes naturales segmentando e identificando con precisión diversas características medioambientales como bosques, masas de agua, zonas urbanas y tierras agrícolas a partir de imágenes de satélite o drones. Específicamente, la segmentación precisa ayuda a monitorizar la deforestación, la urbanización y los cambios en el uso del suelo a lo largo del tiempo para proporcionar datos valiosos para la conservación medioambiental y la planificación.

Estos son algunos de los beneficios de usar un modelo como SAM 2 para analizar los cambios medioambientales a lo largo del tiempo:
- Detección temprana: Identifica signos tempranos de degradación medioambiental, lo que permite intervenciones oportunas para evitar daños mayores.
- Gestión de recursos: Ayuda a gestionar los recursos naturales de manera eficiente al proporcionar información detallada sobre el estado de diversas características medioambientales.
- Conservación de la biodiversidad: Ayuda a rastrear la fauna y monitorizar la biodiversidad, contribuyendo a los esfuerzos de conservación y la protección de especies en peligro de extinción.
- Respuesta ante desastres: Ayuda a evaluar el impacto de desastres naturales como inundaciones, incendios forestales y huracanes, permitiendo una respuesta rápida y eficaz y la planificación de la recuperación.
Link to this sectionEdición de vídeo con SAM 2: Pruébalo tú mismo#
La demo de Segment Anything 2 es una forma excelente de probar el modelo en un vídeo. Utilizando las capacidades de PVS de SAM 2, tomamos un antiguo vídeo de YouTube de Ultralytics y pudimos segmentar tres objetos o personas en el vídeo y pixelarlos. Tradicionalmente, editar a tres personas para sacarlas de un vídeo así consumiría mucho tiempo y sería tedioso, requiriendo un enmascaramiento manual fotograma a fotograma. Sin embargo, SAM 2 simplifica este proceso. Con unos pocos clics en la demo, puedes proteger la identidad de tres objetos de interés en cuestión de segundos.

Fig 6. Probando la demo de SAM 2.
La demo también te permite probar algunos efectos visuales diferentes, como poner un foco en los objetos que seleccionas para seguir y borrar los objetos que se están rastreando. Si te ha gustado la demo y estás listo para empezar a innovar con SAM 2, consulta la página de documentación del modelo SAM 2 de Ultralytics para obtener instrucciones detalladas sobre cómo empezar a trabajar con el modelo. ¡Explora las características, los pasos de instalación y los ejemplos para aprovechar al máximo el potencial de SAM 2 en tus proyectos!
Link to this sectionConclusión#
El Segment Anything Model 2 (SAM 2) de Meta AI está transformando la segmentación de vídeo e imágenes. A medida que tareas como el seguimiento de objetos mejoran, estamos descubriendo nuevas oportunidades en la edición de vídeo, la realidad mixta, la investigación científica y la imagen médica. Al facilitar tareas complejas y acelerar las anotaciones, SAM 2 está preparado para convertirse en una herramienta importante para la comunidad de IA. A medida que sigamos explorando e innovando con modelos como SAM 2, ¡podemos anticipar aún más aplicaciones y avances innovadores en diversos campos!
Aprende más sobre IA explorando nuestro repositorio de GitHub y uniéndote a nuestra comunidad. Echa un vistazo a nuestras páginas de soluciones para obtener información detallada sobre la IA en la fabricación y la atención sanitaria. 🚀






