Actualizaciones de la investigación sobre IA en Meta FAIR: SAM 2.1 y CoTracker3

Abirami Vina

5 minutos de lectura

4 de noviembre de 2024

Explore los últimos modelos de IA de Meta FAIR, SAM 2.1 y CoTracker3, que ofrecen capacidades avanzadas de segmentación y seguimiento para diversas aplicaciones del mundo real.

La inteligencia artificial (IA) es un campo de investigación que últimamente bulle de entusiasmo y energía, con nuevas innovaciones y avances que aparecen más rápido que nunca. En las últimas semanas, el equipo de Investigación Fundamental de la IA (FAIR) de Meta ha dado a conocer un conjunto de herramientas y modelos destinados a abordar retos en diferentes áreas de la IA. Estos lanzamientos incluyen actualizaciones que podrían afectar a campos tan diversos como la sanidad, la robótica y la realidad aumentada.

Por ejemplo, el modelo SAM 2.1 actualizado mejora la segmentación de objetos, lo que facilita la identificación y separación precisas de objetos en imágenes y vídeos. Por su parte, CoTracker3 se centra en el seguimiento de puntos, ayudando a no perder de vista los puntos en los fotogramas de vídeo incluso cuando los objetos se mueven o quedan parcialmente bloqueados. 

Meta también ha introducido versiones más ligeras y rápidas de su modelo de lenguaje Llama para un uso eficiente en el dispositivo, junto con una nueva tecnología de detección táctil para robótica. En este artículo, vamos a desglosar estos últimos lanzamientos de Meta FAIR, analizando lo que ofrece cada herramienta. Empecemos.

El modelo mejorado de Segment Anything de Meta: SAM 2.1

La segmentación de objetos, una tarea clave de la visión por computador, permite identificar y separar objetos distintos dentro de una imagen o vídeo, facilitando el análisis de áreas específicas de interés. Desde su lanzamiento, el Segment Anything Model 2 (SAM 2) de Meta se ha utilizado para la segmentación de objetos en distintos campos, como la imagen médica y la meteorología. Basándose en los comentarios de la comunidad, Meta ha introducido SAM 2.1, una versión mejorada diseñada para abordar algunos de los retos encontrados con el modelo original y ofrecer un mayor rendimiento en general.

__wf_reserved_inherit
Fig. 1. Evaluación comparativa del rendimiento del modelo SAM 2.1.

SAM 2.1 incluye actualizaciones para manejar mejor objetos visualmente similares y más pequeños, gracias a nuevas técnicas de aumento de datos. También mejora la forma en que el modelo gestiona la oclusión (cuando partes de un objeto quedan ocultas a la vista) entrenándolo con secuencias de vídeo más largas, lo que le permite "recordar" y reconocer objetos a lo largo del tiempo, aunque estén temporalmente bloqueados. Por ejemplo, si alguien está grabando un vídeo de una persona que camina detrás de un árbol, SAM 2.1 puede seguir a la persona cuando reaparece al otro lado, utilizando su memoria de la posición y el movimiento del objeto para rellenar huecos cuando la visión se interrumpe brevemente.

Junto a estas actualizaciones, Meta ha lanzado la SAM 2 Developer Suite, que proporciona código de formación de código abierto y una completa infraestructura de demostración para que los desarrolladores puedan perfeccionar SAM 2.1 con sus propios datos e integrarla en una serie de aplicaciones.

CoTracker3: El modelo de seguimiento de Meta y sus características y actualizaciones

Otra tarea interesante de la visión por ordenador es el seguimiento de puntos. Consiste en seguir puntos o características específicas a lo largo de varios fotogramas de un vídeo. El seguimiento de puntos permite al modelo seguir la pista de puntos del ciclista, como el casco o las ruedas, aunque estén ocultos por obstáculos durante un momento.

El seguimiento de puntos es esencial para aplicaciones como la reconstrucción 3D, la robótica y la edición de vídeo. Los modelos tradicionales suelen basarse en configuraciones complejas y grandes conjuntos de datos sintéticos, lo que limita su eficacia cuando se aplican a escenarios del mundo real. 

El modelo de seguimiento CoTracker3 de Meta aborda estas limitaciones simplificando la arquitectura del modelo. También introduce unatécnica de pseudoetiquetado que permite al modelo aprender de vídeos reales no anotados, lo que hace que CoTracker3 sea más eficiente y escalable para su uso práctico.

__wf_reserved_inherit
Fig. 2. Comparación de CoTracker3 con otros modelos de seguimiento.

Una de las características que distinguen a CoTracker3 es su capacidad para gestionar oclusiones. Gracias a la atención cruzada, una técnica que permite al modelo compartir información entre varios puntos rastreados, CoTracker3 puede deducir la posición de los puntos ocultos haciendo referencia a los visibles. De este modo, CoTracker3 está diseñado para ser muy eficaz en entornos dinámicos, como el seguimiento de una persona en una escena abarrotada de gente. 

CoTracker3 también ofrece modos en línea y fuera de línea. El modo en línea permite el seguimiento en tiempo real. Mientras que el modo sin conexión puede utilizarse para un seguimiento más exhaustivo de secuencias de vídeo completas, ideal para tareas como la edición de vídeo o la animación

Otras actualizaciones e investigaciones de Meta FAIR

Mientras que SAM 2.1 y CoTracker3 muestran los últimos avances de Meta en visión por ordenador, también hay actualizaciones interesantes en otras áreas de la IA, como el procesamiento del lenguaje natural (PLN) y la robótica. Echemos un vistazo a algunos de estos otros desarrollos recientes de Meta FAIR.

Meta's Spirit LM: innovaciones de la IA en modelos lingüísticos y multimodales

Spirit LM de Meta es un nuevo modelo de lenguaje multimodal que combina las funciones de texto y habla para que las interacciones con la IA resulten más naturales. A diferencia de los modelos tradicionales, que manejan solo texto o solo habla, Spirit LM puede alternar perfectamente entre ambos. 

Spirit LM puede entender y generar lenguaje de forma que parezca más humano. Por ejemplo, puede mejorar los asistentes virtuales que escuchan y responden en lenguaje hablado o escrito, o apoyar herramientas de accesibilidad que convierten entre habla y texto. 

__wf_reserved_inherit
Fig. 3. Ejemplo de conversión de texto a voz mediante Meta Spirit LM.

Además, Meta ha desarrollado técnicas para hacer más eficientes los grandes modelos lingüísticos. Una de ellas, llamada Layer Skip, ayuda a reducir las necesidades computacionales y los costes energéticos activando sólo las capas que son necesarias para una tarea determinada. Esto es especialmente útil para aplicaciones en dispositivos con memoria y potencia limitadas. 

Ante la necesidad de desplegar aplicaciones de IA en este tipo de dispositivos, Meta también ha lanzado versiones cuantificadas de sus modelos Llama. Estos modelos se comprimen para que funcionen más rápido en dispositivos móviles sin sacrificar la precisión

Una mirada al futuro de la optimización con Meta Lingua

A medida que los modelos de IA crecen en tamaño y complejidad, la optimización de su proceso de entrenamiento se ha vuelto crucial. Con respecto a la optimización, Meta ha introducido Meta Lingua, una base de código flexible y eficiente que facilita el entrenamiento de grandes modelos lingüísticos. El diseño modular de Meta Lingua permite a los investigadores personalizar y escalar rápidamente sus experimentos. 

Los investigadores pueden dedicar menos tiempo a la configuración técnica y más a la investigación real. El código base también es ligero y fácil de integrar, lo que lo hace adecuado tanto para pequeños experimentos como para proyectos a gran escala. Al eliminar estos obstáculos técnicos, Meta Lingua ayuda a los investigadores a progresar más rápidamente y a probar nuevas ideas con mayor facilidad.

__wf_reserved_inherit
Fig. 4. Visión general de Meta Lingua.

Mejoras de Meta en la seguridad de la IA

A medida que avanza la tecnología de la computación cuántica, surgen nuevos retos para la seguridad de los datos. A diferencia de los ordenadores actuales, es probable que los ordenadores cuánticos puedan resolver cálculos complejos mucho más rápido. Esto significa que podrían descifrar los métodos de cifrado utilizados actualmente para proteger la información sensible. Por eso la investigación en este campo es cada vez más importante: desarrollar nuevas formas de proteger los datos es esencial mientras nos preparamos para el futuro de la informática cuántica.

Para hacer frente a esta situación, Meta ha desarrollado Salsa, una herramienta destinada a reforzar la seguridad criptográfica poscuántica. Salsa ayuda a los investigadores a probar ataques basados en inteligencia artificial e identificar posibles puntos débiles, lo que les permite comprender y abordar mejor las vulnerabilidades de los sistemas criptográficos. Mediante la simulación de escenarios de ataque avanzados, Salsa proporciona información valiosa que puede orientar el desarrollo de medidas de seguridad más sólidas y resistentes para la era cuántica.

IA en Meta: Últimas innovaciones en robótica

Los últimos trabajos de Meta en robótica se centran en ayudar a la IA a interactuar de forma más natural con el mundo físico mejorando la percepción táctil, la destreza y la colaboración con los humanos. En concreto, Meta Digit 360 es un avanzado sensor táctil que dota a los robots de un refinado sentido del tacto. Los sensores ayudan a los robots a detectar detalles como la textura, la presión e incluso las formas de los objetos. A partir de estos datos, los robots pueden manipular objetos con mayor precisión, algo crucial en ámbitos como la sanidad y la fabricación.

Estas son algunas de las principales características que incluye Meta Digit 360:

  • Está equipado con 18 funciones de detección distintas para poder captar una amplia gama de detalles táctiles.
  • El sensor puede detectar cambios de presión de tan sólo 1 milinewton, lo que permite a los robots responder a texturas finas y movimientos sutiles.
  • Incluye más de 8 millones de taxels (diminutos puntos de detección) en toda la superficie de la yema del dedo, lo que proporciona un mapa de alta resolución de la información táctil.

Una extensión de Meta Digit 360 es Meta Digit Plexus, una plataforma que integra varios sensores táctiles en una sola mano robótica. Esta configuración permite a los robots procesar información táctil procedente de múltiples puntos a la vez, de forma similar a como las manos humanas recogen datos sensoriales.

__wf_reserved_inherit
Fig. 5. El Meta Plexo Dígito.

Preparando el próximo capítulo de la IA

Las últimas actualizaciones de Meta en materia de IA, que abarcan desde avances en visión por ordenador con SAM 2.1 y CoTracker3 hasta nuevos desarrollos en modelos lingüísticos y robótica, muestran cómo la IA está pasando progresivamente de la teoría a soluciones prácticas y de gran impacto. 

Estas herramientas están diseñadas para hacer que la IA sea más adaptable y útil en diferentes campos, ayudando en todo, desde la segmentación de imágenes complejas hasta la comprensión del lenguaje humano e incluso trabajando junto a nosotros en espacios físicos. 

Al dar prioridad a la accesibilidad y a la aplicación en el mundo real, Meta FAIR nos acerca a un futuro en el que la IA pueda afrontar retos del mundo real y mejorar nuestra vida cotidiana de forma significativa. 

¿Siente curiosidad por la IA? Únase a nuestra comunidad para conocer las últimas actualizaciones y perspectivas, y eche un vistazo a nuestro repositorio de GitHub. También puedes explorar cómo se puede utilizar la visión por ordenador en sectores como los coches autónomos y la agricultura.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles