Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
IA de visión

Actualizaciones de investigación de IA de Meta FAIR: SAM 2.1 y CoTracker3

Explora los últimos modelos de IA de Meta FAIR, SAM 2.1 y CoTracker3, que ofrecen capacidades avanzadas de segmentación y seguimiento para diversas aplicaciones del mundo real.

ABAbirami Vina
5 min read
Investigación de IA de Meta FAIR: SAM 2.1 y CoTracker3

La inteligencia artificial (IA) es un campo de investigación que recientemente ha estado lleno de entusiasmo y energía, con nuevas innovaciones y avances que aparecen más rápido que nunca. En las últimas semanas, el equipo de Fundamental AI Research (FAIR) de Meta presentó un conjunto de herramientas y modelos destinados a abordar desafíos en diferentes áreas de la IA. Estos lanzamientos incluyen actualizaciones que podrían afectar a campos tan diversos como la atención sanitaria, la robótica y la realidad aumentada.

Por ejemplo, el modelo actualizado SAM 2.1 mejora la segmentación de objetos, lo que facilita la identificación y separación precisa de objetos en imágenes y vídeos. Mientras tanto, CoTracker3 se centra en el seguimiento de puntos, ayudando a realizar un seguimiento de puntos en los fotogramas de vídeo incluso cuando los objetos se mueven o quedan parcialmente bloqueados.

Meta también ha introducido versiones más ligeras y rápidas de su modelo de lenguaje Llama para un uso eficiente en dispositivos, junto con una nueva tecnología de detección táctil para la robótica. En este artículo, analizaremos estos últimos lanzamientos de Meta FAIR, viendo qué ofrece cada herramienta. ¡Empecemos!

Link to this sectionEl Segment Anything Model mejorado de Meta: SAM 2.1#

La segmentación de objetos, una tarea de visión artificial clave, hace posible identificar y separar objetos distintos dentro de una imagen o vídeo, lo que facilita el análisis de áreas de interés específicas. Desde su lanzamiento, el Segment Anything Model 2 (SAM 2) de Meta se ha utilizado para la segmentación de objetos en diferentes campos como la imágenes médicas y la meteorología. Basándose en los comentarios de la comunidad, Meta ha introducido ahora SAM 2.1, una versión mejorada diseñada para abordar algunos de los desafíos encontrados con el modelo original y ofrecer un rendimiento general más sólido.

Evaluación comparativa del rendimiento del modelo SAM 2.1

Fig 1. Evaluación comparativa del rendimiento del modelo SAM 2.1.

SAM 2.1 incluye actualizaciones para manejar mejor objetos visualmente similares y más pequeños, gracias a nuevas técnicas de aumentación de datos. También mejora la forma en que el modelo trata la oclusión (cuando partes de un objeto están ocultas a la vista) al entrenarlo en secuencias de vídeo más largas, lo que le permite "recordar" y reconocer objetos con el tiempo, incluso si están bloqueados temporalmente. Por ejemplo, si alguien está grabando un vídeo de una persona caminando detrás de un árbol, SAM 2.1 puede seguir a la persona a medida que reaparece al otro lado, utilizando su memoria de la posición del objeto y su movimiento para completar los espacios cuando la vista se interrumpe brevemente.

Junto con estas actualizaciones, Meta ha lanzado el SAM 2 Developer Suite, que proporciona código de entrenamiento de código abierto y una infraestructura de demostración completa para que los desarrolladores puedan ajustar SAM 2.1 con sus propios datos e integrarlo en una variedad de aplicaciones.

Link to this sectionCoTracker3: El modelo de seguimiento de Meta y sus características y actualizaciones#

Otra tarea interesante de visión artificial es el seguimiento de puntos. Implica seguir puntos o características específicos a través de múltiples fotogramas en un vídeo. Considera un vídeo de un ciclista circulando por una pista; el seguimiento de puntos permite al modelo mantener un seguimiento de los puntos en el ciclista, como el casco o las ruedas, incluso si quedan ocultos por obstáculos por un momento.

El seguimiento de puntos es esencial para aplicaciones como la reconstrucción 3D, la robótica y la edición de vídeo. Los modelos tradicionales a menudo dependen de configuraciones complejas y grandes conjuntos de datos sintéticos, lo que limita su eficacia cuando se aplican a escenarios del mundo real.

El modelo de seguimiento CoTracker3 de Meta aborda estas limitaciones simplificando la arquitectura del modelo. También introduce una técnica de pseudo-etiquetado que permite al modelo aprender de vídeos reales sin anotar, lo que hace que CoTracker3 sea más eficiente y escalable para un uso práctico.

Comparación de CoTracker3 con otros modelos de seguimiento

Fig 2. Comparando CoTracker3 con otros modelos de seguimiento.

Una de las características que hace que CoTracker3 destaque es que puede manejar bien las oclusiones. Mediante el uso de atención entre pistas, una técnica que permite al modelo compartir información a través de múltiples puntos seguidos, CoTracker3 puede inferir las posiciones de los puntos ocultos haciendo referencia a los visibles. Al hacerlo, CoTracker3 está diseñado para ser altamente eficaz en entornos dinámicos, como seguir a una persona a través de una escena concurrida.

CoTracker3 también ofrece modos online y offline. El modo online proporciona un seguimiento en tiempo real, mientras que el modo offline se puede utilizar para un seguimiento más completo a través de secuencias de vídeo completas, ideal para tareas como la edición de vídeo o la animación.

Link to this sectionOtras actualizaciones e investigaciones de Meta FAIR#

Si bien SAM 2.1 y CoTracker3 muestran los últimos avances de Meta en visión artificial, también hay actualizaciones interesantes en otras áreas de la IA, como el procesamiento de lenguaje natural (NLP) y la robótica. Echemos un vistazo a algunos de estos otros desarrollos recientes de Meta FAIR.

Link to this sectionMeta's Spirit LM: Innovaciones de IA en modelos de lenguaje y multimodales#

Meta's Spirit LM es un nuevo modelo de lenguaje multimodal que combina capacidades de texto y voz, haciendo que las interacciones con la IA se sientan más naturales. A diferencia de los modelos tradicionales que manejan solo texto o solo voz, Spirit LM puede cambiar sin problemas entre ambos.

Spirit LM puede comprender y generar lenguaje de maneras que se sienten más humanas. Por ejemplo, puede mejorar los asistentes virtuales que pueden escuchar y responder tanto en lenguaje hablado como escrito, o admitir herramientas de accesibilidad que convierten entre voz y texto.

Un ejemplo de conversión de texto a voz utilizando Meta Spirit LM

Fig 3. Un ejemplo de conversión de texto a voz usando Meta Spirit LM.

Además, Meta ha desarrollado técnicas para hacer que los modelos de lenguaje grandes sean más eficientes. Una de ellas, llamada Layer Skip, ayuda a reducir las necesidades computacionales y los costes energéticos al activar solo las capas que son necesarias para una tarea determinada. Esto es especialmente útil para aplicaciones en dispositivos con memoria y potencia limitadas.

Llevando la necesidad de implementar aplicaciones de IA en tales dispositivos un paso más allá, Meta también ha lanzado versiones cuantizadas de sus modelos Llama. Estos modelos están comprimidos para ejecutarse más rápido en dispositivos móviles sin sacrificar la precisión.

Link to this sectionUna mirada al futuro de la optimización con Meta Lingua#

A medida que los AI models aumentan en tamaño y complejidad, optimizar su proceso de training se ha vuelto crucial. Con respecto a la optimization, Meta ha presentado Meta Lingua, una base de código flexible y eficiente que facilita el entrenamiento de large language models. El diseño modular de Meta Lingua permite a los researchers personalizar y escalar rápidamente sus experimentos.

Los investigadores pueden dedicar menos tiempo a la configuración técnica y más tiempo a la investigación real. La base de código también es ligera y fácil de integrar, lo que la hace adecuada tanto para experimentos pequeños como para proyectos a gran escala. Al eliminar estos obstáculos técnicos, Meta Lingua ayuda a los investigadores a progresar más rápido y probar nuevas ideas con mayor facilidad.

Una descripción general de Meta Lingua

Fig 4. Una descripción general de Meta Lingua.

Link to this sectionLas mejoras de Meta en la seguridad de la IA#

A medida que avanza la tecnología de computación cuántica, plantea nuevos desafíos para la seguridad de los datos. A diferencia de las computadoras actuales, es probable que las computadoras cuánticas puedan resolver cálculos complejos mucho más rápido. Esto significa que podrían potencialmente romper los métodos de cifrado utilizados actualmente para proteger información confidencial. Es por eso que la investigación en este campo es cada vez más importante: desarrollar nuevas formas de proteger los datos es esencial mientras nos preparamos para el futuro de la computación cuántica.

Para abordar esto, Meta ha desarrollado Salsa, una herramienta destinada a fortalecer la seguridad criptográfica poscuántica. Salsa ayuda a los investigadores a probar ataques impulsados por IA e identificar posibles debilidades, lo que les permite comprender y abordar mejor las vulnerabilidades en los sistemas criptográficos. Al simular escenarios de ataque avanzados, Salsa proporciona información valiosa que puede guiar el desarrollo de medidas de seguridad más fuertes y resilientes para la era cuántica.

Link to this sectionIA en Meta: Últimas innovaciones en robótica#

El trabajo más reciente de Meta en robótica se centra en ayudar a que la IA interactúe de forma más natural con el mundo físico mediante la mejora de la percepción táctil, la destreza y la colaboración con los humanos. En particular, Meta Digit 360 es un sensor táctil avanzado que proporciona a los robots un sentido del tacto refinado. Los sensores ayudan a los robots a detectar detalles como la textura, la presión e incluso las formas de los objetos. A partir de estos conocimientos, los robots pueden manipular objetos con mayor precisión; algo que es crucial en áreas como la atención sanitaria y la fabricación.

Estas son algunas de las características clave que incluye el Meta Digit 360:

  • Está equipado con 18 características de detección distintas para poder capturar una amplia gama de detalles táctiles.
  • El sensor puede detectar cambios de presión tan pequeños como 1 milinewton, lo que permite a los robots responder a texturas finas y movimientos sutiles.
  • Incluye más de 8 millones de taxeles (pequeños puntos de detección) a través de la superficie de la yema del dedo, proporcionando un mapa de alta resolución de la información táctil.

Una extensión del Meta Digit 360 es el Meta Digit Plexus, una plataforma que integra varios sensores táctiles en una sola mano robótica. Esta configuración permite a los robots procesar información táctil de múltiples puntos a la vez, similar a cómo las manos humanas recopilan datos sensoriales.

La plataforma de detección táctil Meta Digit Plexus

Fig 5. El Meta Digit Plexus.

Link to this sectionPreparando el escenario para el próximo capítulo de la IA#

Las últimas actualizaciones de IA de Meta, que van desde avances en visión artificial con SAM 2.1 y CoTracker3 hasta nuevos desarrollos en modelos de lenguaje y robótica, muestran cómo la IA está pasando de forma constante de la teoría a soluciones prácticas e impactantes.

Estas herramientas están diseñadas para hacer que la IA sea más adaptable y útil en diferentes campos, ayudando con todo, desde segmentar imágenes complejas hasta comprender el lenguaje humano e incluso trabajar junto a nosotros en espacios físicos.

Al priorizar la accesibilidad y la aplicación en el mundo real, Meta FAIR nos acerca a un futuro donde la IA puede abordar desafíos del mundo real y mejorar nuestra vida diaria de maneras significativas.

¿Sientes curiosidad por la IA? Únete a nuestra comunidad para obtener las últimas actualizaciones e ideas, y echa un vistazo a nuestro repositorio de GitHub. ¡También puedes explorar cómo se puede utilizar la visión artificial en industrias como los coches autónomos y la agricultura!

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático