Junte-se a nós enquanto mergulhamos no Segment Anything Model 2 (SAM 2) da Meta AI e entendemos para quais aplicações em tempo real ele pode ser usado em vários setores.

Junte-se a nós enquanto mergulhamos no Segment Anything Model 2 (SAM 2) da Meta AI e entendemos para quais aplicações em tempo real ele pode ser usado em vários setores.
Em 29 de julho de 2024, a Meta AI lançou a segunda versão de seu Segment Anything Model, SAM 2. O novo modelo pode identificar quais pixels pertencem a um objeto alvo tanto em imagens quanto em vídeos! A melhor parte é que o modelo é capaz de seguir consistentemente um objeto em todos os frames de um vídeo em tempo real. O SAM 2 abre possibilidades interessantes para edição de vídeo, experiências de realidade mista e anotação mais rápida de dados visuais para treinamento de sistemas de visão computacional.
Aproveitando o sucesso do SAM original, que tem sido usado em áreas como ciência marinha, imagens de satélite e medicina, o SAM 2 enfrenta desafios como objetos em movimento rápido e mudanças na aparência. Sua precisão e eficiência aprimoradas o tornam uma ferramenta versátil para uma ampla gama de aplicações. Neste artigo, vamos nos concentrar em onde o SAM 2 pode ser aplicado e por que isso é importante para a comunidade de IA.
O Segment Anything Model 2 é um modelo de fundação avançado que suporta segmentação visual interativa ou PVS (Promptable Visual Segmentation) tanto em imagens quanto em vídeos. PVS é uma técnica onde um modelo pode segmentar ou identificar diferentes partes de uma imagem ou vídeo com base em prompts ou entradas específicas fornecidas pelo usuário. Esses prompts podem estar na forma de cliques, caixas ou máscaras que destacam a área de interesse. O modelo então gera uma máscara de segmentação que delineia a área especificada.
A arquitetura do SAM 2 se baseia no SAM original, expandindo da segmentação de imagem para incluir também a segmentação de vídeo. Ele apresenta um decodificador de máscara leve que usa dados de imagem e prompts para criar máscaras de segmentação. Para vídeos, o SAM 2 introduz um sistema de memória que o ajuda a lembrar informações de frames anteriores, garantindo um rastreamento preciso ao longo do tempo. O sistema de memória inclui componentes que armazenam e recuperam detalhes sobre os objetos que estão sendo segmentados. O SAM 2 também pode lidar com oclusões, rastrear objetos através de múltiplos frames e gerenciar prompts ambíguos, gerando várias máscaras possíveis. A arquitetura avançada do SAM 2 o torna altamente capaz tanto em ambientes visuais estáticos quanto dinâmicos.
Especificamente, com respeito à segmentação de vídeo, o SAM 2 alcança uma precisão maior com três vezes menos interações do usuário em comparação com os métodos anteriores. Para segmentação de imagem, o SAM 2 supera o Segment Anything Model (SAM) original, sendo seis vezes mais rápido e mais preciso. Esta melhoria foi demonstrada no artigo de pesquisa do SAM 2 em 37 conjuntos de dados diferentes, incluindo 23 nos quais o SAM foi testado anteriormente.
Curiosamente, o SAM 2 da Meta AI foi desenvolvido criando o maior conjunto de dados de segmentação de vídeo até o momento, o conjunto de dados SA-V. O extenso conjunto de dados inclui mais de 50.000 vídeos e 35,5 milhões de máscaras de segmentação e foi coletado por meio de contribuições interativas dos usuários. Os anotadores forneceram prompts e correções para ajudar o modelo a aprender com uma ampla variedade de cenários e tipos de objetos.
Graças às suas capacidades avançadas em segmentação de imagem e vídeo, o SAM 2 pode ser usado em vários setores. Vamos explorar algumas dessas aplicações.
O novo modelo de segmentação da Meta AI pode ser usado para aplicações de Realidade Aumentada (AR) e Realidade Virtual (VR). Por exemplo, o SAM 2 pode identificar e segmentar com precisão objetos do mundo real e fazer com que a interação com objetos virtuais pareça mais realista. Pode ser útil em vários campos, como jogos, educação e treinamento, onde uma interação realista entre elementos virtuais e reais é essencial.
Com dispositivos como óculos de realidade aumentada se tornando mais avançados, os recursos do SAM 2 podem em breve ser integrados a eles. Imagine colocar os óculos e olhar ao redor da sua sala de estar. Quando seus óculos segmentam e notam o bebedouro do seu cachorro, eles podem lembrá-lo de reabastecê-lo, como mostrado na imagem abaixo. Ou, se você estiver cozinhando uma nova receita, os óculos podem identificar os ingredientes na sua bancada e fornecer instruções e dicas passo a passo, melhorando sua experiência culinária e garantindo que você tenha todos os itens necessários à mão.
Pesquisas utilizando o modelo SAM mostraram que ele pode ser aplicado em domínios especializados, como imagens de sonar. A imagem de sonar apresenta desafios únicos devido à sua baixa resolução, altos níveis de ruído e as formas complexas de objetos dentro das imagens. Ao ajustar o SAM para imagens de sonar, os pesquisadores demonstraram sua capacidade de segmentar com precisão vários objetos subaquáticos, como detritos marinhos, formações geológicas e outros itens de interesse. Imagens subaquáticas precisas e confiáveis podem ser usadas em pesquisas marinhas, arqueologia subaquática, gestão de pesca e vigilância para tarefas como mapeamento de habitat, descoberta de artefatos e detecção de ameaças.
Dado que o SAM 2 se baseia e melhora muitos dos desafios que o SAM enfrenta, tem o potencial de melhorar ainda mais a análise de imagens de sonar. As suas capacidades de segmentação precisas podem ajudar em várias aplicações marítimas, incluindo investigação científica e pescas. Por exemplo, o SAM 2 pode efetivamente delinear estruturas subaquáticas, detetar detritos marinhos e identificar objetos em imagens de sonar de visão frontal, contribuindo para uma exploração e monitorização subaquáticas mais precisas e eficientes.
Aqui estão os benefícios potenciais do uso do SAM 2 para analisar imagens de sonar:
Ao integrar o SAM 2 nos processos de imagem de sonar, a indústria marítima pode alcançar maior eficiência, precisão e confiabilidade na exploração e análise subaquática, levando, em última análise, a melhores resultados na pesquisa marinha.
Outra aplicação do SAM 2 é em veículos autônomos. O SAM 2 pode identificar com precisão objetos como pedestres, outros veículos, sinais de trânsito e obstáculos em tempo real. O nível de detalhe que o SAM 2 pode fornecer é essencial para tomar decisões de navegação segura e prevenção de colisões. Ao processar dados visuais com precisão, o SAM 2 ajuda a criar um mapa detalhado e confiável do ambiente e leva a uma melhor tomada de decisões.
A capacidade do SAM 2 de funcionar bem em diferentes condições de iluminação, mudanças climáticas e ambientes dinâmicos o torna confiável para veículos autônomos. Seja em uma rua urbana movimentada ou em uma rodovia com neblina, o SAM 2 pode identificar e segmentar objetos de forma consistente para que o veículo possa responder corretamente a várias situações.
No entanto, existem algumas limitações a serem lembradas. Para objetos complexos e em movimento rápido, o SAM 2 às vezes pode perder detalhes finos, e suas previsões podem se tornar instáveis entre os frames. Além disso, o SAM 2 às vezes pode confundir vários objetos de aparência semelhante em cenas lotadas. Esses desafios são o motivo pelo qual a integração de sensores e tecnologias adicionais é fundamental em aplicações de direção autônoma.
O monitoramento ambiental usando visão computacional pode ser complicado, especialmente quando há falta de dados anotados, mas é isso que também o torna uma aplicação interessante para o SAM 2. O SAM 2 pode ser usado para rastrear e analisar mudanças em paisagens naturais, segmentando e identificando com precisão vários recursos ambientais, como florestas, corpos d'água, áreas urbanas e terras agrícolas a partir de imagens de satélite ou drone. Especificamente, a segmentação precisa ajuda no monitoramento do desmatamento, da urbanização e das mudanças no uso da terra ao longo do tempo para fornecer dados valiosos para a conservação ambiental e o planejamento.
Aqui estão alguns dos benefícios de usar um modelo como o SAM 2 para analisar mudanças ambientais ao longo do tempo:
A Segment Anything 2 Demo é uma ótima maneira de experimentar o modelo em um vídeo. Usando os recursos PVS do SAM 2, pegamos um antigo vídeo do YouTube da Ultralytics e conseguimos segmentar três objetos ou pessoas no vídeo e pixelizá-los. Tradicionalmente, editar três indivíduos de um vídeo como esse seria demorado e tedioso e exigiria mascaramento manual quadro a quadro. No entanto, o SAM 2 simplifica esse processo. Com alguns cliques na demonstração, você pode proteger a identidade de três objetos de interesse em questão de segundos.
A demonstração também permite experimentar alguns efeitos visuais diferentes, como colocar um foco nos objetos que você seleciona para rastreamento e apagar os objetos que estão sendo rastreados. Se você gostou da demonstração e está pronto para começar a inovar com o SAM 2, confira a página de documentação do modelo Ultralytics SAM 2 para obter instruções detalhadas sobre como usar o modelo. Explore os recursos, as etapas de instalação e os exemplos para aproveitar ao máximo o potencial do SAM 2 em seus projetos!
O Segment Anything Model 2 (SAM 2) da Meta AI está transformando a segmentação de vídeo e imagem. À medida que tarefas como o rastreamento de objetos melhoram, estamos descobrindo novas oportunidades na edição de vídeo, realidade mista, pesquisa científica e imagem médica. Ao facilitar tarefas complexas e acelerar as anotações, o SAM 2 está pronto para se tornar uma ferramenta importante para a comunidade de IA. À medida que continuamos a explorar e inovar com modelos como o SAM 2, podemos antecipar aplicações e avanços ainda mais inovadores em vários campos!
Saiba mais sobre IA explorando nosso repositório GitHub e juntando-se à nossa comunidade. Confira nossas páginas de soluções para obter informações detalhadas sobre IA em manufatura e saúde. 🚀