Yolo Vision Shenzhen
Shenzhen
Junte-se agora

Atualizações de pesquisa de IA da Meta FAIR: SAM 2.1 e CoTracker3

Abirami Vina

Leitura de 5 minutos

4 de novembro de 2024

Explore os mais recentes modelos de IA da Meta FAIR, SAM 2.1 e CoTracker3, que oferecem capacidades avançadas de segmentação e rastreamento para diversas aplicações no mundo real.

A inteligência artificial (IA) é um campo de pesquisa que recentemente tem estado em alta, com novas inovações e avanços surgindo mais rápido do que nunca. Nas últimas semanas, a equipe de Pesquisa Fundamental de IA (FAIR) da Meta revelou um conjunto de ferramentas e modelos destinados a enfrentar desafios em diferentes áreas da IA. Esses lançamentos incluem atualizações que podem impactar campos tão diversos como saúde, robótica e realidade aumentada.

Por exemplo, o modelo SAM 2.1 atualizado melhora a segmentação de objetos, facilitando a identificação e separação precisas de objetos em imagens e vídeos. Enquanto isso, o CoTracker3 se concentra no rastreamento de pontos, ajudando a manter o controle de pontos em quadros de vídeo, mesmo quando os objetos se movem ou são parcialmente bloqueados. 

A Meta também introduziu versões mais leves e rápidas de seu modelo de linguagem Llama para uso eficiente no dispositivo, juntamente com uma nova tecnologia de detecção tátil para robótica. Neste artigo, vamos detalhar estes últimos lançamentos da Meta FAIR, analisando o que cada ferramenta oferece. Vamos começar!

Modelo Segment Anything aprimorado da Meta: SAM 2.1

A segmentação de objetos, uma tarefa de visão computacional fundamental, possibilita identificar e separar objetos distintos dentro de uma imagem ou vídeo, facilitando a análise de áreas de interesse específicas. Desde o seu lançamento, o Segment Anything Model 2 (SAM 2) da Meta tem sido usado para segmentação de objetos em diferentes campos, como imagem médica e meteorologia. Com base no feedback da comunidade, a Meta agora introduziu o SAM 2.1, uma versão aprimorada projetada para enfrentar alguns dos desafios encontrados com o modelo original e oferecer um desempenho geral mais forte.

__wf_reserved_inherit
Fig. 1. Benchmarking do Desempenho do Modelo SAM 2.1.

O SAM 2.1 inclui atualizações para lidar melhor com objetos visualmente semelhantes e menores, graças a novas técnicas de aumento de dados. Também melhora a forma como o modelo lida com a oclusão (quando partes de um objeto estão escondidas da vista) ao treiná-lo em sequências de vídeo mais longas, permitindo que ele "lembre" e reconheça objetos ao longo do tempo, mesmo que estejam temporariamente bloqueados. Por exemplo, se alguém estiver filmando um vídeo de uma pessoa andando atrás de uma árvore, o SAM 2.1 pode rastrear a pessoa enquanto ela reaparece do outro lado, usando sua memória da posição do objeto e movimento para preencher lacunas quando a visão é brevemente interrompida.

Juntamente com estas atualizações, a Meta lançou o SAM 2 Developer Suite, fornecendo código de treinamento de código aberto e infraestrutura de demonstração completa para que os desenvolvedores possam ajustar o SAM 2.1 com seus próprios dados e integrá-lo em uma variedade de aplicações.

CoTracker3: O modelo de rastreamento da Meta e seus recursos e atualizações

Outra tarefa interessante de visão computacional é o rastreamento de pontos. Envolve seguir pontos ou características específicas em vários quadros em um vídeo. Considere um vídeo de um ciclista andando em uma pista - o rastreamento de pontos permite que o modelo rastreie pontos no ciclista, como o capacete ou as rodas, mesmo que estejam escondidos por obstáculos por um momento.

O rastreamento de pontos é essencial para aplicações como reconstrução 3D, robótica e edição de vídeo. Os modelos tradicionais geralmente dependem de configurações complexas e grandes conjuntos de dados sintéticos, o que limita sua eficácia quando aplicados a cenários do mundo real. 

O modelo de rastreamento CoTracker3 da Meta resolve essas limitações simplificando a arquitetura do modelo. Ele também introduz uma técnica de pseudo-rotulagem que permite que o modelo aprenda com vídeos reais não anotados, tornando o CoTracker3 mais eficiente e escalável para uso prático.

__wf_reserved_inherit
Fig. 2. Comparação do CoTracker3 com outros modelos de rastreamento.

Uma das características que faz com que o CoTracker3 se destaque é que ele consegue lidar bem com oclusões. Usando a atenção entre faixas, uma técnica que permite que o modelo partilhe informações entre vários pontos rastreados, o CoTracker3 pode inferir as posições de pontos ocultos referenciando os visíveis. Ao fazê-lo, o CoTracker3 foi projetado para ser altamente eficaz em ambientes dinâmicos, como seguir uma pessoa através de uma cena lotada. 

O CoTracker3 também oferece modos online e offline. O modo online fornece rastreamento em tempo real. Já o modo offline pode ser usado para um rastreamento mais abrangente em sequências de vídeo inteiras, ideal para tarefas como edição de vídeo ou animação

Outras atualizações e pesquisas da Meta FAIR

Embora o SAM 2.1 e o CoTracker3 mostrem os mais recentes avanços da Meta em visão computacional, também há atualizações interessantes em outras áreas de IA, como processamento de linguagem natural (PNL) e robótica. Vamos dar uma olhada em alguns desses outros desenvolvimentos recentes da Meta FAIR.

Spirit LM da Meta: Inovações em IA em Modelos de Linguagem e Multimodais

O Spirit LM da Meta é um novo modelo de linguagem multimodal que combina recursos de texto e fala, tornando as interações com a IA mais naturais. Ao contrário dos modelos tradicionais que lidam apenas com texto ou apenas com fala, o Spirit LM pode alternar perfeitamente entre os dois. 

O Spirit LM consegue entender e gerar linguagem de maneiras que parecem mais humanas. Por exemplo, pode aprimorar assistentes virtuais que conseguem ouvir e responder em linguagem falada ou escrita, ou suportar ferramentas de acessibilidade que convertem entre fala e texto. 

__wf_reserved_inherit
Fig 3. Um exemplo de Text-to-Speech usando o Meta Spirit LM.

Além disso, a Meta desenvolveu técnicas para tornar os grandes modelos de linguagem mais eficientes. Uma delas, chamada Layer Skip, ajuda a reduzir as necessidades computacionais e os custos de energia ativando apenas as camadas necessárias para uma determinada tarefa. Isso é especialmente útil para aplicações em dispositivos com memória e energia limitadas. 

Levando a necessidade de implementar aplicativos de IA em tais dispositivos um passo adiante, a Meta também lançou versões quantizadas de seus modelos Llama. Esses modelos são compactados para serem executados mais rapidamente em dispositivos móveis sem sacrificar a precisão

Uma visão sobre o futuro da otimização com o Meta Lingua

À medida que os modelos de IA crescem em tamanho e complexidade, otimizar seu processo de treinamento se tornou crucial. Com respeito à otimização, a Meta introduziu o Meta Lingua, uma base de código flexível e eficiente que facilita o treinamento de grandes modelos de linguagem. O design modular do Meta Lingua permite que os pesquisadores personalizem e dimensionem rapidamente seus experimentos. 

Os pesquisadores podem gastar menos tempo na configuração técnica e mais tempo na pesquisa propriamente dita. A base de código também é leve e fácil de integrar, tornando-a adequada tanto para pequenas experiências quanto para projetos de grande escala. Ao remover esses obstáculos técnicos, o Meta Lingua ajuda os pesquisadores a progredirem mais rapidamente e a testarem novas ideias com maior facilidade.

__wf_reserved_inherit
Fig 4. Uma visão geral do Meta Lingua.

Aprimoramentos da Meta em segurança de IA

À medida que a tecnologia da computação quântica avança, ela traz novos desafios para a segurança de dados. Ao contrário dos computadores atuais, é provável que os computadores quânticos consigam resolver cálculos complexos muito mais rapidamente. Isso significa que eles poderiam potencialmente quebrar os métodos de criptografia atualmente usados para proteger informações confidenciais. É por isso que a pesquisa nesta área está se tornando cada vez mais importante: desenvolver novas formas de proteger os dados é essencial enquanto nos preparamos para o futuro da computação quântica.

Para resolver isso, a Meta desenvolveu o Salsa, uma ferramenta destinada a fortalecer a segurança criptográfica pós-quântica. O Salsa ajuda os pesquisadores a testar ataques orientados por IA e identificar possíveis fraquezas, permitindo que eles entendam e abordem melhor as vulnerabilidades em sistemas criptográficos. Ao simular cenários de ataque avançados, o Salsa fornece informações valiosas que podem orientar o desenvolvimento de medidas de segurança mais fortes e resilientes para a era quântica.

IA na Meta: últimas inovações em robótica

O trabalho mais recente da Meta em robótica se concentra em ajudar a IA a interagir de forma mais natural com o mundo físico, aprimorando a percepção tátil, a destreza e a colaboração com humanos. Em particular, o Meta Digit 360 é um sensor tátil avançado que oferece aos robôs um senso de toque refinado. Os sensores ajudam os robôs a detectar detalhes como textura, pressão e até mesmo formas de objetos. A partir dessas percepções, os robôs podem manusear objetos com mais precisão; algo que é crucial em áreas como saúde e manufatura.

Aqui estão alguns dos principais recursos que o Meta Digit 360 inclui:

  • Está equipado com 18 recursos de deteção distintos para poder capturar uma ampla gama de detalhes táteis.
  • O sensor pode detectar mudanças de pressão tão pequenas quanto 1 milinewton, permitindo que os robôs respondam a texturas finas e movimentos sutis.
  • Inclui mais de 8 milhões de taxels (pequenos pontos de deteção) em toda a superfície da ponta do dedo, fornecendo um mapa de alta resolução das informações de toque.

Uma extensão do Meta Digit 360 é o Meta Digit Plexus, uma plataforma que integra vários sensores de toque em uma única mão robótica. Essa configuração permite que os robôs processem informações de toque de vários pontos ao mesmo tempo, de forma semelhante a como as mãos humanas coletam dados sensoriais.

__wf_reserved_inherit
Fig 5. O Meta Digit Plexus.

Preparando o terreno para o próximo capítulo da IA

As últimas atualizações de IA da Meta, desde avanços em visão computacional com SAM 2.1 e CoTracker3 até novos desenvolvimentos em modelos de linguagem e robótica, mostram como a IA está constantemente passando da teoria para soluções práticas e impactantes. 

Essas ferramentas são projetadas para tornar a IA mais adaptável e útil em diferentes campos, ajudando em tudo, desde a segmentação de imagens complexas até a compreensão da linguagem humana e até mesmo trabalhando ao nosso lado em espaços físicos. 

Ao priorizar a acessibilidade e a aplicação no mundo real, o Meta FAIR está nos aproximando de um futuro onde a IA pode enfrentar desafios do mundo real e melhorar nosso dia a dia de forma significativa. 

Tem curiosidade sobre IA? Junte-se à nossa comunidade para obter as últimas atualizações e insights, e confira nosso repositório GitHub. Você também pode explorar como a visão computacional pode ser usada em setores como carros autônomos e agricultura!

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente
Link copiado para a área de transferência