Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Configuración de cookies
Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Explore los últimos modelos de IA de Meta FAIR, SAM 2.1 y CoTracker3, que ofrecen capacidades avanzadas de segmentación y seguimiento para diversas aplicaciones del mundo real.
La inteligencia artificial (IA) es un campo de investigación que recientemente ha estado lleno de entusiasmo y energía, con nuevas innovaciones y avances que aparecen más rápido que nunca. En las últimas semanas, el equipo de Investigación Fundamental de IA (FAIR) de Meta reveló un conjunto de herramientas y modelos destinados a abordar los desafíos en diferentes áreas de la IA. Estos lanzamientos incluyen actualizaciones que podrían afectar a campos tan diversos como la atención médica, la robótica y la realidad aumentada.
Por ejemplo, el modelo SAM 2.1 actualizado mejora la segmentación de objetos, lo que facilita la identificación y separación precisas de objetos en imágenes y vídeos. Por su parte, CoTracker3 se centra en el seguimiento de puntos, ayudando a seguir la track de los puntos en los fotogramas de vídeo incluso cuando los objetos se mueven o quedan parcialmente bloqueados.
Meta también ha introducido versiones más ligeras y rápidas de su modelo de lenguaje Llama para un uso eficiente en el dispositivo, junto con una nueva tecnología de detección táctil para la robótica. En este artículo, analizaremos estas últimas versiones de Meta FAIR, examinando lo que ofrece cada herramienta. ¡Empecemos!
El modelo mejorado de Segment Anything de Meta: SAM 2.1
La segmentación de objetos, una tarea clave de la visión por computador, permite identificar y separar objetos distintos dentro de una imagen o vídeo, facilitando el análisis de áreas específicas de interés. Desde su lanzamiento, el Segment Anything Model 2 (SAM 2) de Meta se ha utilizado para la segmentación de objetos en distintos campos, como la imagen médica y la meteorología. Basándose en los comentarios de la comunidad, Meta ha introducido SAM 2.1, una versión mejorada diseñada para abordar algunos de los retos encontrados con el modelo original y ofrecer un mayor rendimiento en general.
Fig. 1. Evaluación comparativa del rendimiento del modelo SAM 2.1.
SAM 2.1 incluye actualizaciones para manejar mejor objetos visualmente similares y más pequeños, gracias a nuevas técnicas de aumento de datos. También mejora la forma en que el modelo gestiona la oclusión (cuando partes de un objeto quedan ocultas a la vista) entrenándolo con secuencias de vídeo más largas, lo que le permite "recordar" y reconocer objetos a lo largo del tiempo, aunque estén temporalmente bloqueados. Por ejemplo, si alguien está grabando un vídeo de una persona que camina detrás de un árbol, SAM 2.1 puede track a la persona cuando reaparece al otro lado, utilizando su memoria de la posición y el movimiento del objeto para rellenar huecos cuando la visión se interrumpe brevemente.
Junto a estas actualizaciones, Meta ha lanzado la SAM 2 Developer Suite, que proporciona código de formación de código abierto e infraestructura de demostración completa para que los desarrolladores puedan perfeccionar SAM 2.1 con sus propios datos e integrarla en una serie de aplicaciones.
CoTracker3: El modelo de seguimiento de Meta y sus características y actualizaciones
Otra tarea interesante de la visión por ordenador es el seguimiento de puntos. Consiste en seguir puntos o características específicas a lo largo de varios fotogramas de un vídeo. El seguimiento de puntos permite al modelo seguir latrack de puntos del ciclista, como el casco o las ruedas, aunque estén ocultos por obstáculos durante un momento.
El seguimiento de puntos es esencial para aplicaciones como la reconstrucción 3D, la robótica y la edición de vídeo. Los modelos tradicionales a menudo se basan en configuraciones complejas y grandes conjuntos de datos sintéticos, lo que limita su eficacia cuando se aplican a escenarios del mundo real.
El modelo de seguimiento CoTracker3 de Meta aborda estas limitaciones simplificando la arquitectura del modelo. También introduce una técnica de pseudoetiquetado que permite al modelo aprender de videos reales sin anotaciones, lo que hace que CoTracker3 sea más eficiente y escalable para el uso práctico.
Fig. 2. Comparación de CoTracker3 con otros modelos de seguimiento.
Una de las características que distinguen a CoTracker3 es su capacidad para gestionar oclusiones. Gracias a la atención track , una técnica que permite al modelo compartir información entre varios puntos rastreados, CoTracker3 puede deducir la posición de los puntos ocultos haciendo referencia a los visibles. De este modo, CoTracker3 está diseñado para ser muy eficaz en entornos dinámicos, como el seguimiento de una persona en una escena abarrotada de gente.
CoTracker3 también ofrece modos online y offline. El modo online proporciona seguimiento en tiempo real. Mientras que el modo offline puede utilizarse para un seguimiento más exhaustivo a través de secuencias de vídeo completas, ideal para tareas como la edición de vídeo o la animación.
Otras actualizaciones e investigaciones de Meta FAIR
Mientras que SAM 2.1 y CoTracker3 muestran los últimos avances de Meta en visión por ordenador, también hay actualizaciones interesantes en otras áreas de la IA, como el procesamiento del lenguaje natural (PLN) y la robótica. Echemos un vistazo a algunos de estos otros desarrollos recientes de Meta FAIR.
Spirit LM de Meta: Innovaciones en IA en modelos de lenguaje y multimodales
Spirit LM de Meta es un nuevo modelo de lenguaje multimodal que combina capacidades de texto y voz, haciendo que las interacciones con la IA sean más naturales. A diferencia de los modelos tradicionales que manejan solo texto o solo voz, Spirit LM puede alternar sin problemas entre los dos.
Spirit LM puede entender y generar lenguaje de maneras que se sienten más humanas. Por ejemplo, puede mejorar los asistentes virtuales que pueden tanto escuchar como responder en lenguaje hablado o escrito, o apoyar herramientas de accesibilidad que convierten entre voz y texto.
Fig. 3. Un ejemplo de texto a voz utilizando Meta Spirit LM.
Además, Meta ha desarrollado técnicas para hacer que los modelos de lenguaje grandes sean más eficientes. Una de ellas, llamada Layer Skip, ayuda a reducir las necesidades computacionales y los costos de energía activando solo las capas que son necesarias para una tarea determinada. Esto es especialmente útil para aplicaciones en dispositivos con memoria y energía limitadas.
Una mirada al futuro de la optimización con Meta Lingua
A medida que los modelos de IA crecen en tamaño y complejidad, la optimización de su proceso de entrenamiento se ha vuelto crucial. Con respecto a la optimización, Meta ha presentado Meta Lingua, una base de código flexible y eficiente que facilita el entrenamiento de modelos de lenguaje grandes. El diseño modular de Meta Lingua permite a los investigadores personalizar y escalar rápidamente sus experimentos.
Los investigadores pueden dedicar menos tiempo a la configuración técnica y más tiempo a la investigación real. El código base también es ligero y fácil de integrar, lo que lo hace adecuado tanto para pequeños experimentos como para proyectos a gran escala. Al eliminar estos obstáculos técnicos, Meta Lingua ayuda a los investigadores a avanzar más rápido y a probar nuevas ideas con mayor facilidad.
A medida que avanza la tecnología de la computación cuántica, plantea nuevos retos para la seguridad de los datos. A diferencia de los ordenadores actuales, es probable que los ordenadores cuánticos puedan resolver cálculos complejos mucho más rápido. Esto significa que podrían romper los métodos de encriptación que se utilizan actualmente para proteger la información confidencial. Por eso, la investigación en este campo es cada vez más importante: desarrollar nuevas formas de proteger los datos es esencial a medida que nos preparamos para el futuro de la computación cuántica.
Para abordar esto, Meta ha desarrollado Salsa, una herramienta destinada a fortalecer la seguridad criptográfica post-cuántica. Salsa ayuda a los investigadores a probar los ataques impulsados por la IA e identificar las posibles debilidades, lo que les permite comprender y abordar mejor las vulnerabilidades de los sistemas criptográficos. Al simular escenarios de ataque avanzados, Salsa proporciona información valiosa que puede guiar el desarrollo de medidas de seguridad más sólidas y resistentes para la era cuántica.
La IA en Meta: Últimas innovaciones en robótica
Los últimos trabajos de Meta en robótica se centran en ayudar a la IA a interactuar de forma más natural con el mundo físico mejorando la percepción táctil, la destreza y la colaboración con los humanos. En concreto, Meta Digit 360 es un avanzado sensor táctil que dota a los robots de un refinado sentido del tacto. Los sensores ayudan a los robots a detect detalles como la textura, la presión e incluso las formas de los objetos. A partir de estos datos, los robots pueden manipular objetos con mayor precisión, algo crucial en ámbitos como la sanidad y la fabricación.
Estas son algunas de las características clave que incluye Meta Digit 360:
Está equipado con 18 características de detección distintas para poder capturar una amplia gama de detalles táctiles.
El sensor puede detect cambios de presión de tan sólo 1 milinewton, lo que permite a los robots responder a texturas finas y movimientos sutiles.
Incluye más de 8 millones de taxeles (pequeños puntos de detección) en toda la superficie de la yema del dedo, lo que proporciona un mapa de alta resolución de la información táctil.
Una extensión del Meta Digit 360 es el Meta Digit Plexus, una plataforma que integra varios sensores táctiles en una sola mano robótica. Esta configuración permite a los robots procesar información táctil de múltiples puntos a la vez, de forma similar a como las manos humanas recopilan datos sensoriales.
Preparando el escenario para el próximo capítulo de la IA
Las últimas actualizaciones de Meta en materia de IA, que abarcan desde avances en visión por ordenador con SAM 2.1 y CoTracker3 hasta nuevos desarrollos en modelos lingüísticos y robótica, muestran cómo la IA está pasando progresivamente de la teoría a soluciones prácticas y de gran impacto.
Estas herramientas están diseñadas para hacer que la IA sea más adaptable y útil en diferentes campos, ayudando con todo, desde la segmentación de imágenes complejas hasta la comprensión del lenguaje humano e incluso trabajando junto a nosotros en espacios físicos.
Al priorizar la accesibilidad y la aplicación en el mundo real, Meta FAIR nos está acercando a un futuro en el que la IA pueda abordar los retos del mundo real y mejorar nuestra vida cotidiana de forma significativa.
¿Tienes curiosidad por la IA? Únete a nuestra comunidad para obtener las últimas actualizaciones e información, y consulta nuestro repositorio de GitHub. También puedes explorar cómo se puede utilizar la visión artificial en industrias como los coches autónomos y la agricultura.