Atualizações de investigação de IA da Meta FAIR: SAM 2.1 e CoTracker3
Explora os modelos de IA mais recentes da Meta FAIR, o SAM 2.1 e o CoTracker3, que oferecem capacidades avançadas de segmentação e rastreio para diversas aplicações reais.

Inteligência Artificial (IA) é um campo de pesquisa que recentemente tem gerado muita empolgação e energia, com novas inovações e avanços surgindo mais rápido do que nunca. Nas últimas semanas, a equipe de Pesquisa Fundamental em IA (FAIR) da Meta revelou um conjunto de ferramentas e modelos voltados para enfrentar desafios em diferentes áreas da IA. Esses lançamentos incluem atualizações que podem impactar campos tão diversos quanto saúde, robótica e realidade aumentada.
Por exemplo, o modelo atualizado SAM 2.1 melhora a segmentação de objetos, tornando mais fácil identificar e separar objetos com precisão em imagens e vídeos. Enquanto isso, o CoTracker3 foca no rastreamento de pontos, ajudando a manter o controle de pontos em quadros de vídeo mesmo quando os objetos se movem ou ficam parcialmente bloqueados.
A Meta também introduziu versões mais leves e rápidas do seu modelo de linguagem Llama para um uso eficiente no dispositivo, junto com uma nova tecnologia de detecção tátil para robótica. Neste artigo, vamos detalhar esses últimos lançamentos da Meta FAIR, analisando o que cada ferramenta oferece. Vamos começar!
Link to this sectionSegment Anything Model aprimorado da Meta: SAM 2.1#
A segmentação de objetos, uma tarefa de visão computacional fundamental, possibilita identificar e separar objetos distintos dentro de uma imagem ou vídeo, tornando mais fácil analisar áreas de interesse específicas. Desde o seu lançamento, o Segment Anything Model 2 (SAM 2) da Meta tem sido usado para segmentação de objetos em diferentes campos, como imagem médica e meteorologia. Com base no feedback da comunidade, a Meta introduziu agora o SAM 2.1, uma versão aprimorada projetada para enfrentar alguns dos desafios encontrados com o modelo original e oferecer um desempenho geral mais forte.

Fig 1. Benchmarking de desempenho do modelo SAM 2.1.
O SAM 2.1 inclui atualizações para lidar melhor com objetos visualmente semelhantes e menores, graças a novas técnicas de aumento de dados. Ele também melhora a forma como o modelo lida com a oclusão (quando partes de um objeto estão escondidas da visão) ao treiná-lo em sequências de vídeo mais longas, permitindo que ele "lembre" e reconheça objetos ao longo do tempo, mesmo que estejam temporariamente bloqueados. Por exemplo, se alguém estiver filmando um vídeo de uma pessoa caminhando atrás de uma árvore, o SAM 2.1 pode rastrear a pessoa à medida que ela reaparece do outro lado, usando sua memória da posição do objeto e movimento para preencher lacunas quando a visão é brevemente interrompida.
Junto com essas atualizações, a Meta lançou o SAM 2 Developer Suite, fornecendo código de treinamento open-source e infraestrutura de demonstração completa para que desenvolvedores possam fazer o ajuste fino do SAM 2.1 com seus próprios dados e integrá-lo em uma série de aplicações.
Link to this sectionCoTracker3: modelo de rastreamento da Meta e seus recursos e atualizações#
Outra tarefa interessante de visão computacional é o rastreamento de pontos. Isso envolve seguir pontos ou características específicas ao longo de vários quadros em um vídeo. Considere um vídeo de um ciclista andando em uma pista - o rastreamento de pontos permite que o modelo mantenha o controle dos pontos no ciclista, como o capacete ou as rodas, mesmo que estejam escondidos por obstáculos por um momento.
O rastreamento de pontos é essencial para aplicações como reconstrução 3D, robótica e edição de vídeo. Modelos tradicionais geralmente dependem de configurações complexas e grandes conjuntos de dados sintéticos, o que limita sua eficácia quando aplicados a cenários do mundo real.
O modelo de rastreamento CoTracker3 da Meta aborda essas limitações simplificando a arquitetura do modelo. Ele também introduz uma técnica de pseudo-rotulagem que permite que o modelo aprenda com vídeos reais não anotados, tornando o CoTracker3 mais eficiente e escalável para uso prático.

Fig 2. Comparando o CoTracker3 com outros modelos de rastreamento.
Um dos recursos que faz o CoTracker3 se destacar é que ele pode lidar bem com oclusões. Usando atenção cross-track, uma técnica que permite ao modelo compartilhar informações entre vários pontos rastreados, o CoTracker3 pode inferir as posições de pontos escondidos fazendo referência aos visíveis. Ao fazer isso, o CoTracker3 é projetado para ser altamente eficaz em ambientes dinâmicos, como seguir uma pessoa através de uma cena movimentada.
O CoTracker3 também oferece modos online e offline. O modo online fornece rastreamento em tempo real, enquanto o modo offline pode ser usado para um rastreamento mais abrangente em sequências de vídeo inteiras, ideal para tarefas como edição de vídeo ou animação.
Link to this sectionOutras atualizações e pesquisas da Meta FAIR#
Embora o SAM 2.1 e o CoTracker3 mostrem os últimos avanços da Meta em visão computacional, também existem atualizações interessantes em outras áreas de IA, como processamento de linguagem natural (NLP) e robótica. Vamos dar uma olhada em alguns desses outros desenvolvimentos recentes da Meta FAIR.
Link to this sectionSpirit LM da Meta: Inovações de IA em Linguagem e Modelos Multimodais#
O Spirit LM da Meta é um novo modelo de linguagem multimodal que combina capacidades de texto e fala, tornando as interações com a IA mais naturais. Ao contrário dos modelos tradicionais que lidam apenas com texto ou apenas com fala, o Spirit LM pode alternar perfeitamente entre os dois.
O Spirit LM pode entender e gerar linguagem de maneiras que parecem mais humanas. Por exemplo, ele pode aprimorar assistentes virtuais que podem ouvir e responder tanto em linguagem falada quanto escrita, ou apoiar ferramentas de acessibilidade que convertem entre fala e texto.

Fig 3. Um exemplo de conversão de texto em fala usando o Meta Spirit LM.
Além disso, a Meta desenvolveu técnicas para tornar os grandes modelos de linguagem mais eficientes. Uma delas, chamada Layer Skip, ajuda a reduzir necessidades computacionais e custos de energia ativando apenas as camadas necessárias para uma determinada tarefa. Isso é especialmente útil para aplicações em dispositivos com memória e energia limitadas.
Levando a necessidade de implementar aplicações de IA nesses dispositivos um passo adiante, a Meta também lançou versões quantizadas de seus modelos Llama. Esses modelos são compactados para rodar mais rápido em dispositivos móveis sem sacrificar a precisão.
Link to this sectionUm olhar sobre o futuro da otimização com o Meta Lingua#
À medida que os modelos de IA aumentam em tamanho e complexidade, otimizar seu processo de treinamento tornou-se crucial. Com relação à otimização, a Meta introduziu o Meta Lingua, uma base de código flexível e eficiente que torna o treinamento de grandes modelos de linguagem mais fácil. O design modular do Meta Lingua permite que pesquisadores personalizem e escalem rapidamente seus experimentos.
Os pesquisadores podem gastar menos tempo na configuração técnica e mais tempo na pesquisa real. A base de código também é leve e fácil de integrar, tornando-a adequada tanto para pequenos experimentos quanto para projetos de grande escala. Ao remover esses obstáculos técnicos, o Meta Lingua ajuda os pesquisadores a progredir mais rapidamente e testar novas ideias com maior facilidade.

Fig 4. Uma visão geral do Meta Lingua.
Link to this sectionAprimoramentos da Meta na segurança de IA#
À medida que a tecnologia de computação quântica avança, ela traz novos desafios para a segurança de dados. Ao contrário dos computadores de hoje, é provável que os computadores quânticos sejam capazes de resolver cálculos complexos muito mais rapidamente. Isso significa que eles poderiam potencialmente quebrar os métodos de criptografia atualmente usados para proteger informações confidenciais. É por isso que a pesquisa neste campo está se tornando cada vez mais importante - desenvolver novas formas de proteger dados é essencial à medida que nos preparamos para o futuro da computação quântica.
Para resolver isso, a Meta desenvolveu o Salsa, uma ferramenta voltada para fortalecer a segurança criptográfica pós-quântica. O Salsa ajuda os pesquisadores a testar ataques impulsionados por IA e identificar possíveis fraquezas, permitindo que compreendam e abordem melhor as vulnerabilidades em sistemas criptográficos. Ao simular cenários de ataque avançados, o Salsa fornece insights valiosos que podem orientar o desenvolvimento de medidas de segurança mais fortes e resilientes para a era quântica.
Link to this sectionIA na Meta: Últimas inovações em robótica#
O trabalho mais recente da Meta em robótica foca em ajudar a IA a interagir mais naturalmente com o mundo físico, aprimorando a percepção de toque, a destreza e a colaboração com humanos. Em particular, o Meta Digit 360 é um sensor tátil avançado que dá aos robôs um sentido de toque refinado. Os sensores ajudam os robôs a detectar detalhes como textura, pressão e até mesmo formas de objetos. A partir desses insights, os robôs podem manusear objetos com mais precisão; algo que é crucial em áreas como saúde e manufatura.
Aqui estão alguns dos principais recursos que o Meta Digit 360 inclui:
- Ele é equipado com 18 recursos de detecção distintos para poder capturar uma ampla gama de detalhes táteis.
- O sensor pode detectar mudanças de pressão tão pequenas quanto 1 milinewton, permitindo que os robôs respondam a texturas finas e movimentos sutis.
- Inclui mais de 8 milhões de taxels (pequenos pontos de detecção) em toda a superfície da ponta do dedo, fornecendo um mapa de alta resolução das informações de toque.
Uma extensão do Meta Digit 360 é o Meta Digit Plexus, uma plataforma que integra vários sensores de toque em uma única mão robótica. Essa configuração permite que os robôs processem informações de toque de vários pontos ao mesmo tempo, de forma semelhante a como as mãos humanas coletam dados sensoriais.

Fig 5. O Meta Digit Plexus.
Link to this sectionPreparando o cenário para o próximo capítulo da IA#
As mais recentes atualizações de IA da Meta, que variam de avanços em visão computacional com o SAM 2.1 e CoTracker3 a novos desenvolvimentos em modelos de linguagem e robótica, mostram como a IA está passando constantemente da teoria para soluções práticas e impactantes.
Essas ferramentas são projetadas para tornar a IA mais adaptável e útil em diferentes campos, ajudando em tudo, desde segmentar imagens complexas até entender a linguagem humana e até mesmo trabalhar ao nosso lado em espaços físicos.
Ao priorizar a acessibilidade e a aplicação no mundo real, a Meta FAIR está nos aproximando de um futuro onde a IA pode enfrentar desafios reais e melhorar nossas vidas diárias de maneiras significativas.
Você está curioso sobre IA? Junte-se à nossa comunidade para obter as últimas atualizações e insights, e confira nosso repositório GitHub. Você também pode explorar como a visão computacional pode ser usada em setores como carros autônomos e agricultura!






