Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
IA de visión

Explorando SAM 3: El nuevo Segment Anything Model de Meta AI

Descubre cómo SAM 3, el nuevo Segment Anything Model de Meta AI, facilita la detección, segmentación y seguimiento de objetos en imágenes y vídeos del mundo real.

ABAbirami Vina
5 min read
Segment Anything Model SAM 3 de Meta AI

El 19 de noviembre de 2025, Meta AI lanzó Segment Anything Model 3, también conocido como SAM 3. Esta última versión de Segment Anything Model introduce nuevas formas de detectar, segmentar y rastrear objetos en imágenes y vídeos del mundo real usando prompts de texto, prompts visuales y ejemplos de imágenes.

El modelo SAM 3 se basa en SAM y SAM 2 y aporta nuevos avances y características como la segmentación de conceptos, la detección de vocabulario abierto y el seguimiento de vídeo en tiempo real. Puede entender frases nominales cortas, seguir objetos a través de fotogramas e identificar conceptos detallados o poco comunes que los modelos anteriores no podían manejar con tanta consistencia.

Como parte del lanzamiento de SAM 3, Meta también introdujo SAM 3D. Este conjunto de modelos de próxima generación reconstruye objetos, escenas y cuerpos humanos completos a partir de una sola imagen y expande el ecosistema de Segment Anything hacia la comprensión 3D. Estas adiciones abren nuevas aplicaciones en computer vision, robótica, edición de medios y flujos de trabajo creativos.

En este artículo, exploraremos qué es SAM 3, qué lo diferencia de SAM 2, cómo funciona el modelo y sus aplicaciones en el mundo real. ¡Empecemos!

Link to this section¿Qué es SAM 3? Un vistazo a Segment Anything Model 3 de Meta#

SAM 3 es un computer vision model de vanguardia que puede identificar, separar y rastrear objetos en imágenes y vídeos basándose en instrucciones sencillas. En lugar de depender de una lista fija de etiquetas, SAM 3 entiende el lenguaje natural y las señales visuales, facilitando decirle al modelo qué quieres encontrar.

Por ejemplo, con SAM 3, puedes escribir una frase corta como “autobús escolar amarillo” o “gato atigrado”, hacer clic en un objeto o resaltar un ejemplo en una imagen. El modelo detectará entonces cada objeto coincidente y generará máscaras de segmentación limpias (un contorno visual que muestra exactamente qué píxeles pertenecen a un objeto). SAM 3 también puede seguir esos objetos a través de los fotogramas de vídeo, manteniéndolos consistentes a medida que se mueven.

Link to this sectionSAM 3D permite la reconstrucción 3D a partir de una sola imagen#

Otra parte emocionante del anuncio de Meta AI es SAM 3D, que extiende el proyecto Segment Anything hacia la 3D understanding. SAM 3D puede tomar una sola imagen 2D y reconstruir la forma, la postura o la estructura de un objeto o un cuerpo humano en tres dimensiones. En otras palabras, el modelo puede estimar cómo ocupa el espacio algo incluso cuando solo hay un punto de vista disponible.

SAM 3D se ha lanzado como dos modelos diferentes: SAM 3D Objects, que reconstruye artículos cotidianos con geometría y textura, y SAM 3D Body, que estima la forma y la postura del cuerpo humano a partir de una sola imagen. Ambos modelos utilizan el resultado de segmentación de SAM 3 y luego generan una representación 3D que se alinea con la apariencia y posición del objeto en la foto original.

Un ejemplo del uso de SAM 3D

Fig 1. Un ejemplo de uso de SAM 3D. (Fuente: Creado usando el playground de segment anything de Meta AI)

Link to this sectionSAM 3: Nuevas características para unificar la detección, la segmentación y el seguimiento#

Aquí tienes algunas de las actualizaciones clave que introduce SAM 3 para reunir la detección, la segmentación y el seguimiento en un modelo unificado:

  • Tareas de segmentación de conceptos: En SAM y SAM 2, la segmentación de objetos dependía de prompts visuales como clics o cajas. SAM 3 añade la capacidad de segmentar objetos basándose en una frase corta de texto o un recorte de ejemplo de la imagen. Esto significa que el modelo puede identificar todas las instancias coincidentes sin necesidad de hacer clic para cada una de ellas.
  • Prompts de texto de vocabulario abierto: A diferencia de versiones anteriores, SAM 3 puede interpretar frases cortas de lenguaje natural. Esto elimina la necesidad de una lista de etiquetas fija y hace posible que el modelo trabaje con conceptos más específicos o menos comunes.
  • Un solo modelo para detección, segmentación y seguimiento: SAM 3 unifica la detección, la segmentación y el seguimiento en un solo modelo, eliminando la necesidad de sistemas separados para encontrar objetos, generar máscaras de segmentación y seguirlos a través de fotogramas de vídeo. Esto crea un flujo de trabajo más consistente y simplificado tanto para imágenes como para vídeo, y aunque SAM 2 también ofrecía algunas capacidades de seguimiento, SAM 3 ofrece un rendimiento significativamente más sólido y fiable.
  • Resultados más estables en escenas complejas: Dado que SAM 3 puede combinar texto, imágenes de ejemplo y prompts visuales, puede manejar escenas desordenadas o repetitivas de forma más fiable que las versiones anteriores que solo dependían de clics visuales.

Segmentación de conceptos con SAM 3 con ejemplos de texto o imagen

Fig 2. SAM 3 introduce la segmentación de conceptos con texto o ejemplos de imágenes. (Source)

Link to this sectionComparando SAM 3 vs SAM 2 vs SAM 1#

Digamos que estás viendo un vídeo de un safari con muchos animales diferentes y quieres detectar y segmentar solo los elefantes. ¿Cómo sería esta tarea en las diferentes versiones de SAM?

Con SAM, tendrías que hacer clic manualmente en cada elefante en cada fotograma para generar una máscara de segmentación. No hay seguimiento, así que cada nuevo fotograma requiere nuevos clics.

Con SAM 2, podrías hacer clic una vez en un elefante, obtener su máscara y el modelo rastrearía a ese mismo elefante a través del vídeo. Sin embargo, aún tendrías que proporcionar clics separados si quisieras segmentar múltiples elefantes (objetos específicos), ya que SAM 2 no entiende categorías como “elefante” por sí mismo.

Con SAM 3, el flujo de trabajo se vuelve mucho más sencillo. Puedes escribir “elefante” o dibujar un bounding box alrededor de un solo elefante para proporcionar un ejemplo, y el modelo encontrará automáticamente todos los elefantes en el vídeo, los segmentará y los rastreará de forma consistente a través de los fotogramas. Todavía admite los prompts de clic y caja utilizados en versiones anteriores, pero ahora también puede responder a prompts de texto e imágenes de ejemplo, algo que SAM y SAM 2 no podían hacer.

Link to this sectionCómo funciona el modelo SAM 3#

A continuación, veamos más de cerca cómo funciona el modelo SAM 3 y cómo fue entrenado.

Link to this sectionUna descripción general de la arquitectura del modelo SAM 3#

SAM 3 reúne varios componentes para soportar conceptos y prompts visuales en un solo sistema. En su núcleo, el modelo utiliza el Meta Perception Encoder, que es el codificador unificado de imagen-texto de código abierto de Meta.

Este codificador puede procesar tanto imágenes como frases nominales cortas. En pocas palabras, esto permite a SAM 3 vincular el lenguaje y las características visuales de forma más efectiva que las versiones anteriores de Segment Anything Model.

Encima de este codificador, SAM 3 incluye un detector basado en la familia de modelos transformer DETR. Este detector identifica objetos en la imagen y ayuda al sistema a determinar qué objetos corresponden al prompt del usuario.

Específicamente, para la segmentación de vídeo, SAM 3 utiliza un componente de seguimiento que se basa en el banco de memoria y el codificador de memoria de SAM 2. Esto permite al modelo mantener información sobre los objetos a través de fotogramas para que pueda reidentificarlos y rastrearlos con el tiempo.

Cómo funciona la segmentación de cualquier cosa con conceptos

Fig 3. Cómo funciona la segmentación de cualquier cosa con conceptos (Fuente: scontent)

Link to this sectionEl motor de datos escalable detrás de Segment Anything Model 3#

Para entrenar a SAM 3, Meta necesitó muchos más datos anotados de los que existen actualmente en internet. Las máscaras de segmentación y etiquetas de texto de alta calidad son difíciles de crear a gran escala, y delinear completamente cada instancia de un concepto en imágenes y vídeos es lento y costoso.

Para resolver esto, Meta construyó un nuevo motor de datos que combina al propio SAM 3, modelos de IA adicionales y anotadores humanos trabajando juntos. El flujo de trabajo comienza con un pipeline de sistemas de IA, incluyendo SAM 3 y un modelo de creación de subtítulos basado en Llama.

Estos sistemas escanean grandes colecciones de imágenes y vídeos, generan subtítulos, convierten esos subtítulos en etiquetas de texto y producen candidatos iniciales de máscaras de segmentación. Los anotadores humanos y de IA revisan entonces estos candidatos.

Los anotadores de IA, entrenados para igualar o incluso superar la precisión humana en tareas como comprobar la calidad de la máscara y verificar la cobertura del concepto, filtran los casos sencillos. Los humanos solo intervienen en los ejemplos más desafiantes donde el modelo todavía puede tener dificultades.

Motor de datos de SAM 3

Fig 4. Motor de datos de SAM 3 (Source)

Este enfoque le da a Meta un gran impulso en la velocidad de anotación. Al dejar que los anotadores de IA manejen los casos fáciles, el pipeline se vuelve unas cinco veces más rápido en prompts negativos y un 36% más rápido en prompts positivos en dominios detallados.

Esta eficiencia hizo posible escalar el conjunto de datos a más de cuatro millones de conceptos únicos. El bucle constante de propuestas de IA, correcciones humanas y predicciones actualizadas del modelo también mejora la calidad de la etiqueta con el tiempo y ayuda a SAM 3 a aprender un conjunto mucho más amplio de conceptos visuales y basados en texto.

Link to this sectionMejoras en el rendimiento de SAM 3#

Con respecto al rendimiento, SAM 3 ofrece una mejora clara sobre modelos anteriores. En el nuevo benchmark SA-Co de Meta, que evalúa la detección y segmentación de conceptos de vocabulario abierto, SAM 3 logra aproximadamente el doble de rendimiento que los sistemas anteriores tanto en imágenes como en vídeo.

También iguala o supera a SAM 2 en tareas visuales interactivas como point-to-mask y mask-to-masklet. Meta reporta ganancias adicionales en evaluaciones más difíciles como zero-shot LVIS (donde los modelos deben reconocer categorías raras sin ejemplos de entrenamiento) y el conteo de objetos (midiendo si todas las instancias de un objeto son detectadas), destacando una generalización más fuerte a través de dominios.

Además de estas mejoras en precisión, SAM 3 es eficiente, procesando una imagen con más de 100 objetos detectados en unos 30 milisegundos en una GPU H200 y manteniendo velocidades casi en tiempo real cuando rastrea múltiples objetos en vídeo.

Link to this sectionAplicaciones de Segment Anything Model 3#

Ahora que tenemos una mejor comprensión de SAM 3, veamos cómo se está utilizando en aplicaciones reales, desde el razonamiento avanzado guiado por texto hasta la investigación científica y los productos de Meta.

Link to this sectionManejo de consultas de texto complejas usando SAM 3 Agent#

SAM 3 también puede ser utilizado como una herramienta dentro de un modelo de lenguaje multimodal más grande, que Meta llama el SAM 3 Agent. En lugar de darle a SAM 3 una frase corta como “elefante”, el agente puede dividir una pregunta más complicada en prompts más pequeños que SAM 3 entiende.

Por ejemplo, si el usuario pregunta: “¿Qué objeto en la imagen se utiliza para controlar y guiar a un caballo?”, el agente prueba diferentes frases nominales, las envía a SAM 3 y comprueba qué máscaras tienen sentido. Sigue refinando hasta que encuentra el objeto correcto.

Incluso sin haber sido entrenado en conjuntos de datos de razonamiento especial, el SAM 3 Agent funciona bien en benchmarks diseñados para consultas de texto complejas, como ReasonSeg y OmniLabel. Esto demuestra que SAM 3 puede soportar sistemas que necesitan tanto comprensión del lenguaje como segmentación visual detallada.

Link to this sectionAplicaciones científicas y de conservación de SAM 3#

Curiosamente, SAM 3 ya se está utilizando en entornos de investigación donde las etiquetas visuales detalladas son importantes. Meta trabajó con Conservation X Labs y Osa Conservation para construir SA-FARI, un conjunto de datos público de monitoreo de vida silvestre con más de 10,000 vídeos de cámaras trampa.

Cada animal en cada fotograma está etiquetado con cajas y máscaras de segmentación, algo que sería extremadamente lento de anotar a mano. De manera similar, en la investigación oceánica, SAM 3 se está utilizando junto con FathomNet y MBARI para crear máscaras de segmentación de instancias para underwater imagery y apoyar nuevos benchmarks de evaluación.

Tales conjuntos de datos ayudan a los científicos a analizar imágenes de vídeo de forma más eficiente y a estudiar animales y hábitats que suelen ser difíciles de rastrear a gran escala. Los investigadores también pueden usar estos recursos para construir sus propios modelos para la identificación de especies, el análisis de comportamiento y el monitoreo ecológico automatizado.

Link to this sectionCómo está desplegando Meta a SAM 3 en sus productos#

Además de sus usos en investigación, SAM 3 también está impulsando nuevas características y casos de uso en los productos de consumo de Meta. Aquí tienes un vistazo a algunas de las formas en que ya se está integrando:

  • Ediciones en Instagram: Los creadores pueden aplicar efectos a una persona u objeto específico en un vídeo sin hacer trabajo manual fotograma a fotograma.
  • Aplicación Meta AI y meta.ai en la web: SAM 3 admite nuevas herramientas para modificar, mejorar y remezclar imágenes y vídeos.
  • “View in Room” de Facebook Marketplace: SAM 3 trabaja con SAM 3D para permitir a las personas previsualizar muebles o decoración en sus hogares usando una sola foto.
  • Aria Gen 2 research glasses: Segment Anything Model 3 ayuda a segmentar y rastrear manos y objetos desde una vista en primera persona, apoyando AR (Realidad Aumentada), robótica e investigación de IA contextual.

Link to this sectionConclusiones clave#

SAM 3 es un paso emocionante hacia adelante para la segmentación. Introduce la segmentación de conceptos, los prompts de texto de vocabulario abierto y un seguimiento mejorado. Con un rendimiento notablemente más fuerte tanto en imágenes como en vídeo, y la adición de SAM 3D, el conjunto de modelos abre nuevas posibilidades para la visión artificial, herramientas creativas, investigación científica y productos del mundo real.

Únete a nuestra comunidad y explora nuestro repositorio de GitHub para descubrir más sobre la IA. Si buscas construir tu propio proyecto de visión artificial, echa un vistazo a nuestras opciones de licencia. Explora más sobre aplicaciones como AI en salud y Vision AI en retail visitando nuestras páginas de soluciones.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático