Glossário

Autoencoders mascarados (MAE)

Descubra como os Autoencoders Mascarados (MAE) revolucionam a aprendizagem auto-supervisionada. Saiba como a reconstrução MAE melhora o desempenho e a eficiência Ultralytics .

Os Autoencoders Mascarados (MAE) representam uma abordagem altamente eficiente e escalável para a aprendizagem auto-supervisionada no âmbito mais amplo da visão computacional. Introduzidos como um método para treinar redes neurais altamente parametrizadas sem a necessidade de conjuntos de dados extensivamente rotulados, um MAE funciona obscurecendo intencionalmente uma grande porção aleatória de uma imagem de entrada e treinando o modelo para reconstruir os píxeis em falta. Ao prever com sucesso a informação visual oculta, a rede aprende inerentemente uma compreensão profunda e semântica de formas, texturas e relações espaciais.

Esta técnica inspira-se fortemente no sucesso da modelação de linguagem mascarada em sistemas baseados em texto, mas foi adaptada à natureza de alta dimensão dos dados de imagem. A arquitetura baseia-se na muito popular estrutura Transformer, utilizando uma estrutura assimétrica de codificador-decodificador.

Como funcionam os autoencoders mascarados

A principal inovação do MAE reside na sua eficiência de processamento. Durante o treino, a imagem de entrada é dividida numa grelha de fragmentos. Uma elevada percentagem destes patches (frequentemente até 75%) é aleatoriamente mascarada e descartada. O codificador, normalmente um Vision Transformer (ViT), processa apenas os patches visíveis e não mascarados. Como o codificador ignora completamente as partes mascaradas, requer significativamente menos recursos computacionais e de memória, tornando o processo de treino notavelmente rápido.

Depois de o codificador gerar representações latentes dos fragmentos visíveis, um descodificador leve assume o controlo. O descodificador recebe os fragmentos visíveis codificados juntamente com «tokens de máscara» (marcadores de posição para os dados em falta) e tenta reconstruir a imagem original. Como o descodificador só é utilizado durante esta fase de pré-treino, pode ser mantido com um tamanho muito reduzido, reduzindo ainda mais a sobrecarga computacional. Assim que o pré-treino estiver concluído, o descodificador é descartado e o poderoso codificador é mantido para aplicações a jusante.

Distinção de termos relacionados

Para compreender plenamente os MAEs, é útil perceber em que medida diferem de conceitos de aprendizagem profunda mais antigos ou mais abrangentes:

Autoencoder: Um autoencoder tradicional comprime toda a entrada num espaço latente mais pequeno e, em seguida, reconstrói-a para aprender codificações de dados eficientes. Um MAE, no entanto, obriga a rede a prever os dados em falta, em vez de se limitar a comprimir e descomprimir toda a entrada.
Aprendizagem auto-supervisionada: Trata-se do paradigma de treino geral em que um modelo aprende a partir dos próprios dados, sem rótulos anotados por humanos. O MAE é uma implementação arquitetónica específica deste conceito.
Modelo de base: os MAEs são frequentemente utilizados para o pré-treino de modelos visuais de base, que são posteriormente ajustados para tarefas especializadas.

Aplicações no Mundo Real

Uma vez que as MAEs aprendem representações incrivelmente robustas de dados visuais, constituem pontos de partida ideais para sistemas complexos de IA aplicados ao mundo real.

Pré-treino para deteção avançada de objetos: As capacidades avançadas de extração de características aprendidas através do pré-treino MAE podem melhorar significativamente o desempenho dos sistemas de deteção de objetos a jusante. Por exemplo, as características aprendidas através do MAE podem ser utilizadas no treino de modelos como o Ultralytics em conjuntos de dados personalizados e de nicho, onde os dados rotulados são escassos.
Análise de imagens médicas: Em áreas como a radiologia, a recolha de conjuntos de dados massivos de imagens de ressonância magnética ou tomografia computadorizada anotadas é dispendiosa e está sujeita a restrições impostas pelas leis de privacidade. Os investigadores utilizam os MAEs para pré-treinar modelos com grandes conjuntos de imagens médicas não rotuladas, publicadas na literatura académica recente no arXiv, antes de os ajustar para detect ou anomalias com muito poucos exemplos rotulados.

Gestão de dados e implementação

Depois de um modelo de base ser pré-treinado utilizando uma abordagem MAE, o passo seguinte consiste em ajustar e implementar o modelo para tarefas específicas, como a classificação de imagens ou a segmentação de imagens. Os ecossistemas modernos de nuvem tornam esta transição perfeita. Por exemplo, as equipas podem utilizar Ultralytics para anotar facilmente conjuntos de dados específicos para cada tarefa, coordenar o treino na nuvem e implementar os modelos resultantes, prontos para produção, em dispositivos de borda ou servidores. Isto elimina grande parte do trabalho de infraestrutura repetitivo normalmente associado às operações de aprendizagem automática (MLOps).

Exemplo de código: Simulação do mascaramento de patch

Embora o treino de uma MAE completa exija uma arquitetura de transformadores completa, o conceito central do mascaramento de patches pode ser facilmente visualizado utilizando tensor PyTorch . Este pequeno trecho de código demonstra como se pode selecionar aleatoriamente patches visíveis a partir de um tensor de entrada.

import torch


def create_random_mask(batch_size, num_patches, mask_ratio=0.75):
    """Generates a random mask to simulate MAE patch dropping."""
    # Calculate how many patches to keep visible
    num_keep = int(num_patches * (1 - mask_ratio))

    # Generate random noise to determine patch shuffling
    noise = torch.rand(batch_size, num_patches)

    # Sort noise to get random indices
    ids_shuffle = torch.argsort(noise, dim=1)

    # Select the indices of the patches that remain visible
    ids_keep = ids_shuffle[:, :num_keep]

    return ids_keep


# Simulate a batch of 4 images, each divided into 196 patches
visible_patches = create_random_mask(batch_size=4, num_patches=196)
print(f"Visible patch indices shape: {visible_patches.shape}")

Para os programadores que pretendem integrar capacidades visuais poderosas e pré-treinadas nos seus fluxos de trabalho sem terem de criar arquiteturas a partir do zero, explorar a extensa Ultralytics oferece excelentes pontos de partida para aplicar modelos de visão de última geração aos seus desafios específicos. Além disso, as principais estruturas como TensorFlow também oferecem ecossistemas robustos para implementar investigação de ponta em aprendizagem automática em ambientes de produção escaláveis.

Autoencoders mascarados (MAE)

Exporte para mais de 17 formatos. Implemente em 43 regiões globais.

Treine o YOLO26 em GPUs H100 por 2,39 $/hora.

Licenciamento empresarial flexível para impulsionar os seus projetos de IA de visão.

Licenciamento empresarial concebido para impulsionar o seu próximo projeto

Etiquete até 10 vezes mais rápido com a anotação inteligente

Anotar. Treinar. Implementar. Tudo numa única plataforma.

Como funcionam os autoencoders mascarados

Distinção de termos relacionados

Aplicações no Mundo Real

Gestão de dados e implementação

Exemplo de código: Simulação do mascaramento de patch

Leia mais nesta categoria

Como exportarYOLO Ultralytics utilizando Ultralytics

Detecção de empilhamento inseguro de paletes com Ultralytics

Um guia para a anotação de polígonos com Ultralytics

Vamos construir juntos o futuro da IA!

Autoencoders mascarados (MAE)

Exporte para mais de 17 formatos. Implemente em 43 regiões globais.

Treine o YOLO26 em GPUs H100 por 2,39 $/hora.

Licenciamento empresarial flexível para impulsionar os seus projetos de IA de visão.

Licenciamento empresarial concebido para impulsionar o seu próximo projeto

Etiquete até 10 vezes mais rápido com a anotação inteligente

Anotar. Treinar. Implementar. Tudo numa única plataforma.

Como funcionam os autoencoders mascarados

Distinção de termos relacionados

Aplicações no Mundo Real

Gestão de dados e implementação

Exemplo de código: Simulação do mascaramento de patch

Leia mais nesta categoria

Como exportarYOLO Ultralytics utilizando Ultralytics

Detecção de empilhamento inseguro de paletes com Ultralytics

Um guia para a anotação de polígonos com Ultralytics

Vamos construir juntos o futuro da IA!

Anotar. Treinar. Implementar. Tudo numa única plataforma.