Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Voltar para o Glossário da Ultralytics

Masked Autoencoders (MAE)

Explora como os Masked Autoencoders (MAE) revolucionam a aprendizagem autossupervisionada. Aprende como a reconstrução MAE melhora o desempenho e a eficiência do Ultralytics YOLO26.

Masked Autoencoders (MAE) representam uma abordagem altamente eficiente e escalável para self-supervised learning dentro do campo mais amplo de computer vision. Introduzido como um método para treinar redes neurais fortemente parametrizadas sem exigir conjuntos de dados extensivamente rotulados, um MAE funciona ocultando intencionalmente uma grande parte aleatória de uma imagem de entrada e treinando o modelo para reconstruir os pixels ausentes. Ao prever com sucesso a informação visual oculta, a rede aprende inerentemente uma compreensão profunda e semântica de formas, texturas e relações espaciais.

Esta técnica é fortemente inspirada pelo sucesso da modelagem de linguagem mascarada em sistemas baseados em texto, mas adaptada para a natureza de alta dimensão dos dados de imagem. A arquitetura baseia-se na estrutura transformer, amplamente popular, utilizando uma estrutura assimétrica de codificador-decodificador.

Link to this sectionComo funcionam os Masked Autoencoders#

A inovação central do MAE reside na sua eficiência de processamento. Durante o treinamento, a imagem de entrada é dividida em uma grade de patches. Uma alta porcentagem desses patches (muitas vezes até 75%) é mascarada aleatoriamente e descartada. O codificador, tipicamente um Vision Transformer (ViT), processa apenas os patches visíveis e não mascarados. Como o codificador ignora completamente as partes mascaradas, ele requer significativamente menos computação e memória, tornando o processo de treinamento notavelmente rápido.

Após o codificador gerar representações latentes dos patches visíveis, um decodificador leve assume o controle. O decodificador recebe os patches visíveis codificados juntamente com "tokens de máscara" (espaços reservados para os dados ausentes) e tenta reconstruir a imagem original. Como o decodificador é usado apenas durante esta fase de pré-treinamento, ele pode ser mantido muito pequeno, reduzindo ainda mais a sobrecarga computacional. Uma vez concluído o pré-treinamento, o decodificador é descartado e o poderoso codificador é mantido para aplicações posteriores.

Link to this sectionDistinguir Termos Relacionados#

Para compreender totalmente os MAEs, é útil entender como eles diferem de conceitos mais antigos ou mais amplos de deep learning:

  • Autoencoder: Um autoencoder tradicional comprime uma entrada inteira em um espaço latente menor e depois a reconstrói para aprender codificações de dados eficientes. Um MAE, no entanto, força a rede a prever dados ausentes em vez de apenas comprimir e descomprimir a entrada inteira.
  • Self-Supervised Learning: Este é o paradigma de treinamento abrangente onde um modelo aprende com os próprios dados sem rótulos anotados por humanos. O MAE é uma implementação arquitetônica específica deste conceito.
  • Foundation Model: Os MAEs são frequentemente usados para pré-treinar modelos de base visuais, que são então ajustados (fine-tuned) para tarefas especializadas.

Link to this sectionAplicações no Mundo Real#

Como os MAEs aprendem representações incrivelmente robustas de dados visuais, eles são pontos de partida ideais para sistemas complexos de IA do mundo real.

  • Pré-treinamento para Detecção Avançada de Objetos: As ricas capacidades de extração de características aprendidas via pré-treinamento MAE podem aumentar drasticamente o desempenho de sistemas de object detection posteriores. Por exemplo, características aprendidas através do MAE podem ser utilizadas ao treinar modelos como o Ultralytics YOLO26 em conjuntos de dados customizados e de nicho onde dados rotulados são escassos.
  • Medical Image Analysis: Em campos como a radiologia, coletar conjuntos de dados massivos de exames de ressonância magnética ou tomografia computadorizada anotados é caro e restrito por leis de privacidade. Pesquisadores usam MAEs para pré-treinar modelos em grandes pools de imagens médicas não rotuladas, publicadas em recent academic literature on arXiv, antes de ajustá-los para detectar tumores ou anomalias com poucos exemplos rotulados.

Link to this sectionGerenciando Dados e Implantação#

Uma vez que uma espinha dorsal (backbone) é pré-treinada usando uma abordagem MAE, o próximo passo envolve o ajuste fino e a implantação do modelo para tarefas específicas como image classification ou image segmentation. Ecossistemas modernos de nuvem tornam essa transição perfeita. Por exemplo, equipes podem aproveitar a Ultralytics Platform para anotar facilmente conjuntos de dados específicos de tarefas, orquestrar o treinamento na nuvem e implantar os modelos prontos para produção resultantes em dispositivos de borda ou servidores. Isso elimina grande parte do trabalho de infraestrutura clichê normalmente associado a machine learning operations (MLOps).

Link to this sectionExemplo de Código: Simulando o Mascaramento de Patches#

Embora treinar um MAE completo exija uma arquitetura transformer completa, o conceito central de mascaramento de patches pode ser facilmente visualizado usando PyTorch tensor operations. Este snippet simples demonstra como se pode selecionar aleatoriamente patches visíveis de um tensor de entrada.

import torch


def create_random_mask(batch_size, num_patches, mask_ratio=0.75):
    """Generates a random mask to simulate MAE patch dropping."""
    # Calculate how many patches to keep visible
    num_keep = int(num_patches * (1 - mask_ratio))

    # Generate random noise to determine patch shuffling
    noise = torch.rand(batch_size, num_patches)

    # Sort noise to get random indices
    ids_shuffle = torch.argsort(noise, dim=1)

    # Select the indices of the patches that remain visible
    ids_keep = ids_shuffle[:, :num_keep]

    return ids_keep


# Simulate a batch of 4 images, each divided into 196 patches
visible_patches = create_random_mask(batch_size=4, num_patches=196)
print(f"Visible patch indices shape: {visible_patches.shape}")

Para desenvolvedores que buscam integrar capacidades visuais poderosas e pré-treinadas em seus fluxos de trabalho sem escrever arquiteturas do zero, explorar a extensa Ultralytics documentation fornece excelentes pontos de partida para aplicar modelos de visão de ponta aos seus desafios únicos. Além disso, grandes frameworks como o TensorFlow também fornecem ecossistemas robustos para implementar pesquisas de ponta em machine learning em ambientes de produção escaláveis.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática