Yolo Vision Shenzhen
Shenzhen
Junte-se agora

Actualizações da investigação em IA do Meta FAIR: SAM 2.1 e CoTracker3

Abirami Vina

Leitura de 5 minutos

4 de novembro de 2024

Explore os mais recentes modelos de IA do Meta FAIR, SAM 2.1 e CoTracker3, que oferecem capacidades avançadas de segmentação e rastreio para diversas aplicações do mundo real.

A inteligência artificial (IA) é um campo de pesquisa que recentemente tem estado em alta, com novas inovações e avanços surgindo mais rápido do que nunca. Nas últimas semanas, a equipe de Pesquisa Fundamental de IA (FAIR) da Meta revelou um conjunto de ferramentas e modelos destinados a enfrentar desafios em diferentes áreas da IA. Esses lançamentos incluem atualizações que podem impactar campos tão diversos como saúde, robótica e realidade aumentada.

Por exemplo, o modelo SAM 2.1 atualizado melhora a segmentação de objectos, facilitando a identificação e a separação precisas de objectos em imagens e vídeos. Entretanto, o CoTracker3 centra-se no seguimento de pontos, ajudando a manter track de pontos em fotogramas de vídeo, mesmo quando os objectos se movem ou ficam parcialmente bloqueados. 

A Meta também introduziu versões mais leves e rápidas de seu modelo de linguagem Llama para uso eficiente no dispositivo, juntamente com uma nova tecnologia de detecção tátil para robótica. Neste artigo, vamos detalhar estes últimos lançamentos da Meta FAIR, analisando o que cada ferramenta oferece. Vamos começar!

Modelo de qualquer segmento melhorado da Meta: SAM 2.1

A segmentação de objectos, uma tarefa fundamental da visão por computador, permite identificar e separar objectos distintos numa imagem ou vídeo, facilitando a análise de áreas de interesse específicas. Desde o seu lançamento, o Segment Anything Model 2 (SAM 2) da Meta tem sido utilizado para a segmentação de objectos em diferentes áreas, como a imagiologia médica e a meteorologia. Com base nas reacções da comunidade, a Meta introduziu agora SAM 2.1, uma versão melhorada concebida para resolver alguns dos desafios encontrados com o modelo original e proporcionar um melhor desempenho global.

__wf_reserved_inherit
Fig. 1. Avaliação comparativa do desempenho do modelo SAM 2.1.

SAM 2.1 inclui actualizações para lidar melhor com objectos visualmente semelhantes e mais pequenos, graças a novas técnicas de aumento de dados. Também melhora a forma como o modelo lida com a oclusão (quando partes de um objeto estão escondidas da vista), treinando-o em sequências de vídeo mais longas, permitindo-lhe "lembrar-se" e reconhecer objectos ao longo do tempo, mesmo que estejam temporariamente bloqueados. Por exemplo, se alguém estiver a filmar um vídeo de uma pessoa a caminhar atrás de uma árvore, SAM 2.1 pode track A pessoa reaparece do outro lado, utilizando a sua memória da posição e movimento do objeto para preencher as lacunas quando a visualização é interrompida por breves instantes.

Juntamente com estas actualizações, a Meta lançou o SAM 2 Developer Suite, fornecendo código de formação de código aberto e uma infraestrutura de demonstração completa para que os programadores possam afinar SAM 2.1 com os seus próprios dados e integrá-lo numa série de aplicações.

CoTracker3: O modelo de rastreamento da Meta e seus recursos e atualizações

Outra tarefa interessante da visão computacional é o seguimento de pontos. Trata-se de seguir pontos ou caraterísticas específicas em vários fotogramas de um vídeo. Considere-se um vídeo de um ciclista a andar numa track - o seguimento de pontos permite ao modelo track pontos no ciclista, como o capacete ou as rodas, mesmo que estejam escondidos por obstáculos durante um momento.

O rastreamento de pontos é essencial para aplicações como reconstrução 3D, robótica e edição de vídeo. Os modelos tradicionais geralmente dependem de configurações complexas e grandes conjuntos de dados sintéticos, o que limita sua eficácia quando aplicados a cenários do mundo real. 

O modelo de rastreamento CoTracker3 da Meta resolve essas limitações simplificando a arquitetura do modelo. Ele também introduz uma técnica de pseudo-rotulagem que permite que o modelo aprenda com vídeos reais não anotados, tornando o CoTracker3 mais eficiente e escalável para uso prático.

__wf_reserved_inherit
Fig. 2. Comparação do CoTracker3 com outros modelos de rastreamento.

Uma das caraterísticas que faz com que o CoTracker3 se destaque é o facto de conseguir lidar bem com oclusões. Utilizando a atenção track , uma técnica que permite ao modelo partilhar informações entre vários pontos seguidos, o CoTracker3 pode inferir as posições de pontos ocultos referenciando os visíveis. Ao fazê-lo, o CoTracker3 foi concebido para ser altamente eficaz em ambientes dinâmicos, como seguir uma pessoa através de uma cena cheia de gente. 

O CoTracker3 também oferece modos online e offline. O modo online fornece rastreamento em tempo real. Já o modo offline pode ser usado para um rastreamento mais abrangente em sequências de vídeo inteiras, ideal para tarefas como edição de vídeo ou animação

Outras atualizações e pesquisas da Meta FAIR

Embora SAM 2.1 e o CoTracker3 apresentem os mais recentes avanços da Meta na visão por computador, existem também actualizações interessantes noutras áreas da IA, como o processamento de linguagem natural (PNL) e a robótica. Vamos dar uma vista de olhos a alguns destes outros desenvolvimentos recentes da Meta FAIR.

Spirit LM da Meta: Inovações em IA em Modelos de Linguagem e Multimodais

O Spirit LM da Meta é um novo modelo de linguagem multimodal que combina recursos de texto e fala, tornando as interações com a IA mais naturais. Ao contrário dos modelos tradicionais que lidam apenas com texto ou apenas com fala, o Spirit LM pode alternar perfeitamente entre os dois. 

O Spirit LM consegue entender e gerar linguagem de maneiras que parecem mais humanas. Por exemplo, pode aprimorar assistentes virtuais que conseguem ouvir e responder em linguagem falada ou escrita, ou suportar ferramentas de acessibilidade que convertem entre fala e texto. 

__wf_reserved_inherit
Fig 3. Um exemplo de Text-to-Speech usando o Meta Spirit LM.

Além disso, a Meta desenvolveu técnicas para tornar os grandes modelos de linguagem mais eficientes. Uma delas, chamada Layer Skip, ajuda a reduzir as necessidades computacionais e os custos de energia ativando apenas as camadas necessárias para uma determinada tarefa. Isso é especialmente útil para aplicações em dispositivos com memória e energia limitadas. 

Levando a necessidade de implementar aplicativos de IA em tais dispositivos um passo adiante, a Meta também lançou versões quantizadas de seus modelos Llama. Esses modelos são compactados para serem executados mais rapidamente em dispositivos móveis sem sacrificar a precisão

Uma visão sobre o futuro da otimização com o Meta Lingua

À medida que os modelos de IA crescem em tamanho e complexidade, otimizar seu processo de treinamento se tornou crucial. Com respeito à otimização, a Meta introduziu o Meta Lingua, uma base de código flexível e eficiente que facilita o treinamento de grandes modelos de linguagem. O design modular do Meta Lingua permite que os pesquisadores personalizem e dimensionem rapidamente seus experimentos. 

Os pesquisadores podem gastar menos tempo na configuração técnica e mais tempo na pesquisa propriamente dita. A base de código também é leve e fácil de integrar, tornando-a adequada tanto para pequenas experiências quanto para projetos de grande escala. Ao remover esses obstáculos técnicos, o Meta Lingua ajuda os pesquisadores a progredirem mais rapidamente e a testarem novas ideias com maior facilidade.

__wf_reserved_inherit
Fig 4. Uma visão geral do Meta Lingua.

Aprimoramentos da Meta em segurança de IA

À medida que a tecnologia da computação quântica avança, ela traz novos desafios para a segurança de dados. Ao contrário dos computadores atuais, é provável que os computadores quânticos consigam resolver cálculos complexos muito mais rapidamente. Isso significa que eles poderiam potencialmente quebrar os métodos de criptografia atualmente usados para proteger informações confidenciais. É por isso que a pesquisa nesta área está se tornando cada vez mais importante: desenvolver novas formas de proteger os dados é essencial enquanto nos preparamos para o futuro da computação quântica.

Para resolver isso, a Meta desenvolveu o Salsa, uma ferramenta destinada a fortalecer a segurança criptográfica pós-quântica. O Salsa ajuda os pesquisadores a testar ataques orientados por IA e identificar possíveis fraquezas, permitindo que eles entendam e abordem melhor as vulnerabilidades em sistemas criptográficos. Ao simular cenários de ataque avançados, o Salsa fornece informações valiosas que podem orientar o desenvolvimento de medidas de segurança mais fortes e resilientes para a era quântica.

IA na Meta: últimas inovações em robótica

O mais recente trabalho da Meta na área da robótica centra-se em ajudar a IA a interagir mais naturalmente com o mundo físico, melhorando a perceção do tato, a destreza e a colaboração com os seres humanos. Em particular, o Meta Digit 360 é um sensor tátil avançado que dá aos robôs um sentido de tato refinado. Os sensores ajudam os robôs a detect detalhes como a textura, a pressão e até as formas dos objectos. A partir destes conhecimentos, os robôs podem manusear objectos com maior precisão, algo que é crucial em áreas como os cuidados de saúde e a produção.

Aqui estão alguns dos principais recursos que o Meta Digit 360 inclui:

  • Está equipado com 18 recursos de deteção distintos para poder capturar uma ampla gama de detalhes táteis.
  • O sensor pode detect alterações de pressão tão pequenas como 1 milinewton, permitindo que os robôs respondam a texturas finas e movimentos subtis.
  • Inclui mais de 8 milhões de taxels (pequenos pontos de deteção) em toda a superfície da ponta do dedo, fornecendo um mapa de alta resolução das informações de toque.

Uma extensão do Meta Digit 360 é o Meta Digit Plexus, uma plataforma que integra vários sensores de toque em uma única mão robótica. Essa configuração permite que os robôs processem informações de toque de vários pontos ao mesmo tempo, de forma semelhante a como as mãos humanas coletam dados sensoriais.

__wf_reserved_inherit
Fig 5. O Meta Digit Plexus.

Preparando o terreno para o próximo capítulo da IA

As últimas actualizações de IA da Meta, que vão desde os avanços na visão por computador com o SAM 2.1 e o CoTracker3 até aos novos desenvolvimentos em modelos de linguagem e robótica, mostram como a IA está a passar da teoria para soluções práticas e com impacto. 

Essas ferramentas são projetadas para tornar a IA mais adaptável e útil em diferentes campos, ajudando em tudo, desde a segmentação de imagens complexas até a compreensão da linguagem humana e até mesmo trabalhando ao nosso lado em espaços físicos. 

Ao priorizar a acessibilidade e a aplicação no mundo real, o Meta FAIR está nos aproximando de um futuro onde a IA pode enfrentar desafios do mundo real e melhorar nosso dia a dia de forma significativa. 

Tem curiosidade sobre IA? Junte-se à nossa comunidade para obter as últimas atualizações e insights, e confira nosso repositório GitHub. Você também pode explorar como a visão computacional pode ser usada em setores como carros autônomos e agricultura!

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente