¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Visión Yolo 2024

Actualizaciones de la investigación de IA de Meta FAIR: SAM 2.1 y CoTracker3

Abirami Vina

5 minutos de lectura

4 de noviembre de 2024

Explore los últimos modelos de IA de Meta FAIR, SAM 2.1 y CoTracker3, que ofrecen capacidades avanzadas de segmentación y seguimiento para diversas aplicaciones del mundo real.

La inteligencia artificial (IA) es un campo de investigación que recientemente ha estado lleno de entusiasmo y energía, con nuevas innovaciones y avances que aparecen más rápido que nunca. En las últimas semanas, el equipo de Investigación Fundamental de IA (FAIR) de Meta reveló un conjunto de herramientas y modelos destinados a abordar los desafíos en diferentes áreas de la IA. Estos lanzamientos incluyen actualizaciones que podrían afectar a campos tan diversos como la atención médica, la robótica y la realidad aumentada.

Por ejemplo, el modelo SAM 2.1 actualizado mejora la segmentación de objetos, lo que facilita la identificación y separación precisas de objetos en imágenes y vídeos. Mientras tanto, CoTracker3 se centra en el seguimiento de puntos, lo que ayuda a realizar un seguimiento de los puntos en los fotogramas de vídeo, incluso cuando los objetos se mueven o se bloquean parcialmente. 

Meta también ha introducido versiones más ligeras y rápidas de su modelo de lenguaje Llama para un uso eficiente en el dispositivo, junto con una nueva tecnología de detección táctil para la robótica. En este artículo, analizaremos estas últimas versiones de Meta FAIR, examinando lo que ofrece cada herramienta. ¡Empecemos!

Modelo Segment Anything mejorado de Meta: SAM 2.1

La segmentación de objetos, una tarea clave de visión artificial, permite identificar y separar distintos objetos dentro de una imagen o vídeo, facilitando el análisis de áreas de interés específicas. Desde su lanzamiento, el Segment Anything Model 2 (SAM 2) de Meta se ha utilizado para la segmentación de objetos en diferentes campos como la imagenología médica y la meteorología. Basándose en los comentarios de la comunidad, Meta ha presentado ahora SAM 2.1, una versión mejorada diseñada para abordar algunos de los desafíos encontrados con el modelo original y ofrecer un rendimiento general más sólido.

__wf_reserved_inherit
Fig 1. Evaluación comparativa del rendimiento del modelo SAM 2.1.

SAM 2.1 incluye actualizaciones para manejar mejor objetos visualmente similares y más pequeños, gracias a las nuevas técnicas de aumento de datos. También mejora la forma en que el modelo lidia con la oclusión (cuando partes de un objeto están ocultas a la vista) al entrenarlo en secuencias de vídeo más largas, lo que le permite "recordar" y reconocer objetos con el tiempo, incluso si están bloqueados temporalmente. Por ejemplo, si alguien está filmando un vídeo de una persona caminando detrás de un árbol, SAM 2.1 puede rastrear a la persona a medida que reaparece al otro lado, utilizando su memoria de la posición del objeto y el movimiento para rellenar los huecos cuando la vista se interrumpe brevemente.

Junto con estas actualizaciones, Meta ha lanzado SAM 2 Developer Suite, proporcionando código de entrenamiento de código abierto e infraestructura de demostración completa para que los desarrolladores puedan ajustar SAM 2.1 con sus propios datos e integrarlo en una variedad de aplicaciones.

CoTracker3: El modelo de seguimiento de Meta y sus características y actualizaciones

Otra tarea interesante de visión artificial es el seguimiento de puntos. Implica seguir puntos o características específicas a través de múltiples fotogramas en un video. Considere un video de un ciclista montando a lo largo de una pista: el seguimiento de puntos permite que el modelo realice un seguimiento de los puntos en el ciclista, como el casco o las ruedas, incluso si están ocultos por obstáculos por un momento.

El seguimiento de puntos es esencial para aplicaciones como la reconstrucción 3D, la robótica y la edición de vídeo. Los modelos tradicionales a menudo se basan en configuraciones complejas y grandes conjuntos de datos sintéticos, lo que limita su eficacia cuando se aplican a escenarios del mundo real. 

El modelo de seguimiento CoTracker3 de Meta aborda estas limitaciones simplificando la arquitectura del modelo. También introduce una técnica de pseudoetiquetado que permite al modelo aprender de videos reales sin anotaciones, lo que hace que CoTracker3 sea más eficiente y escalable para el uso práctico.

__wf_reserved_inherit
Fig. 2. Comparación de CoTracker3 con otros modelos de seguimiento.

Una de las características que distingue a CoTracker3 es su capacidad para manejar bien las oclusiones. Utilizando la atención entre pistas, una técnica que permite al modelo compartir información a través de múltiples puntos rastreados, CoTracker3 puede inferir las posiciones de los puntos ocultos haciendo referencia a los visibles. Al hacerlo, CoTracker3 está diseñado para ser altamente eficaz en entornos dinámicos, como seguir a una persona a través de una escena concurrida. 

CoTracker3 también ofrece modos online y offline. El modo online proporciona seguimiento en tiempo real. Mientras que el modo offline puede utilizarse para un seguimiento más exhaustivo a través de secuencias de vídeo completas, ideal para tareas como la edición de vídeo o la animación

Otras actualizaciones e investigaciones de Meta FAIR

Si bien SAM 2.1 y CoTracker3 muestran los últimos avances de Meta en visión artificial, también hay actualizaciones interesantes en otras áreas de la IA, como el procesamiento del lenguaje natural (PNL) y la robótica. Echemos un vistazo a algunos de estos otros desarrollos recientes de Meta FAIR.

Spirit LM de Meta: Innovaciones en IA en modelos de lenguaje y multimodales

Spirit LM de Meta es un nuevo modelo de lenguaje multimodal que combina capacidades de texto y voz, haciendo que las interacciones con la IA sean más naturales. A diferencia de los modelos tradicionales que manejan solo texto o solo voz, Spirit LM puede alternar sin problemas entre los dos. 

Spirit LM puede entender y generar lenguaje de maneras que se sienten más humanas. Por ejemplo, puede mejorar los asistentes virtuales que pueden tanto escuchar como responder en lenguaje hablado o escrito, o apoyar herramientas de accesibilidad que convierten entre voz y texto. 

__wf_reserved_inherit
Fig. 3. Un ejemplo de texto a voz utilizando Meta Spirit LM.

Además, Meta ha desarrollado técnicas para hacer que los modelos de lenguaje grandes sean más eficientes. Una de ellas, llamada Layer Skip, ayuda a reducir las necesidades computacionales y los costos de energía activando solo las capas que son necesarias para una tarea determinada. Esto es especialmente útil para aplicaciones en dispositivos con memoria y energía limitadas. 

Llevando la necesidad de implementar aplicaciones de IA en tales dispositivos un paso más allá, Meta también ha lanzado versiones cuantificadas de sus modelos Llama. Estos modelos se comprimen para que se ejecuten más rápido en dispositivos móviles sin sacrificar la precisión

Una mirada al futuro de la optimización con Meta Lingua

A medida que los modelos de IA crecen en tamaño y complejidad, la optimización de su proceso de entrenamiento se ha vuelto crucial. Con respecto a la optimización, Meta ha presentado Meta Lingua, una base de código flexible y eficiente que facilita el entrenamiento de modelos de lenguaje grandes. El diseño modular de Meta Lingua permite a los investigadores personalizar y escalar rápidamente sus experimentos. 

Los investigadores pueden dedicar menos tiempo a la configuración técnica y más tiempo a la investigación real. El código base también es ligero y fácil de integrar, lo que lo hace adecuado tanto para pequeños experimentos como para proyectos a gran escala. Al eliminar estos obstáculos técnicos, Meta Lingua ayuda a los investigadores a avanzar más rápido y a probar nuevas ideas con mayor facilidad.

__wf_reserved_inherit
Fig. 4. Una visión general de Meta Lingua.

Las mejoras de Meta en la seguridad de la IA

A medida que avanza la tecnología de la computación cuántica, plantea nuevos retos para la seguridad de los datos. A diferencia de los ordenadores actuales, es probable que los ordenadores cuánticos puedan resolver cálculos complejos mucho más rápido. Esto significa que podrían romper los métodos de encriptación que se utilizan actualmente para proteger la información confidencial. Por eso, la investigación en este campo es cada vez más importante: desarrollar nuevas formas de proteger los datos es esencial a medida que nos preparamos para el futuro de la computación cuántica.

Para abordar esto, Meta ha desarrollado Salsa, una herramienta destinada a fortalecer la seguridad criptográfica post-cuántica. Salsa ayuda a los investigadores a probar los ataques impulsados por la IA e identificar las posibles debilidades, lo que les permite comprender y abordar mejor las vulnerabilidades de los sistemas criptográficos. Al simular escenarios de ataque avanzados, Salsa proporciona información valiosa que puede guiar el desarrollo de medidas de seguridad más sólidas y resistentes para la era cuántica.

La IA en Meta: Últimas innovaciones en robótica

El trabajo más reciente de Meta en robótica se centra en ayudar a la IA a interactuar de forma más natural con el mundo físico, mejorando la percepción del tacto, la destreza y la colaboración con los humanos. En particular, Meta Digit 360 es un sensor táctil avanzado que proporciona a los robots un sentido del tacto refinado. Los sensores ayudan a los robots a detectar detalles como la textura, la presión e incluso las formas de los objetos. A partir de estos conocimientos, los robots pueden manipular objetos con mayor precisión, algo crucial en áreas como la atención médica y la fabricación.

Estas son algunas de las características clave que incluye Meta Digit 360:

  • Está equipado con 18 características de detección distintas para poder capturar una amplia gama de detalles táctiles.
  • El sensor puede detectar cambios de presión tan pequeños como 1 milinewton, lo que permite a los robots responder a texturas finas y movimientos sutiles.
  • Incluye más de 8 millones de taxeles (pequeños puntos de detección) en toda la superficie de la yema del dedo, lo que proporciona un mapa de alta resolución de la información táctil.

Una extensión del Meta Digit 360 es el Meta Digit Plexus, una plataforma que integra varios sensores táctiles en una sola mano robótica. Esta configuración permite a los robots procesar información táctil de múltiples puntos a la vez, de forma similar a como las manos humanas recopilan datos sensoriales.

__wf_reserved_inherit
Fig 5. El Meta Digit Plexus.

Preparando el escenario para el próximo capítulo de la IA

Las últimas actualizaciones de IA de Meta, que van desde los avances en la visión artificial con SAM 2.1 y CoTracker3 hasta los nuevos desarrollos en modelos de lenguaje y robótica, muestran cómo la IA está pasando constantemente de la teoría a soluciones prácticas e impactantes. 

Estas herramientas están diseñadas para hacer que la IA sea más adaptable y útil en diferentes campos, ayudando con todo, desde la segmentación de imágenes complejas hasta la comprensión del lenguaje humano e incluso trabajando junto a nosotros en espacios físicos. 

Al priorizar la accesibilidad y la aplicación en el mundo real, Meta FAIR nos está acercando a un futuro en el que la IA pueda abordar los retos del mundo real y mejorar nuestra vida cotidiana de forma significativa. 

¿Tienes curiosidad por la IA? Únete a nuestra comunidad para obtener las últimas actualizaciones e información, y consulta nuestro repositorio de GitHub. También puedes explorar cómo se puede utilizar la visión artificial en industrias como los coches autónomos y la agricultura.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles