Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Masked Autoencoders (MAE)

Explora cómo los autoencoders enmascarados (MAE) revolucionan el aprendizaje autossupervisado. Aprende cómo la reconstrucción de MAE mejora el rendimiento y la eficiencia de Ultralytics YOLO26.

Los Autoencoders enmascarados (MAE) representan un enfoque altamente eficiente y escalable para el aprendizaje autosupervisado dentro del campo más amplio de la visión por ordenador. Introducido como un método para entrenar redes neuronales con muchos parámetros sin necesidad de conjuntos de datos ampliamente etiquetados, un MAE funciona ocultando intencionalmente una gran parte aleatoria de una imagen de entrada y entrenando al modelo para reconstruir los píxeles faltantes. Al predecir con éxito la información visual oculta, la red aprende inherentemente una comprensión profunda y semántica de formas, texturas y relaciones espaciales.

Esta técnica está fuertemente inspirada en el éxito del modelado de lenguaje enmascarado en sistemas basados en texto, pero adaptada a la naturaleza de alta dimensión de los datos de imagen. La arquitectura se basa en el popular marco de Transformer, utilizando una estructura asimétrica de codificador-decodificador.

Link to this sectionCómo funcionan los Autoencoders enmascarados#

La innovación principal del MAE reside en su eficiencia de procesamiento. Durante el entrenamiento, la imagen de entrada se divide en una cuadrícula de parches. Un alto porcentaje de estos parches (a menudo hasta el 75%) se enmascara aleatoriamente y se descarta. El codificador, normalmente un Vision Transformer (ViT), solo procesa los parches visibles y no enmascarados. Debido a que el codificador omite las porciones enmascaradas por completo, requiere significativamente menos cómputo y memoria, lo que hace que el proceso de entrenamiento sea notablemente rápido.

Después de que el codificador genera representaciones latentes de los parches visibles, un decodificador ligero toma el relevo. El decodificador recibe los parches visibles codificados junto con "tokens de máscara" (marcadores de posición para los datos faltantes) e intenta reconstruir la imagen original. Debido a que el decodificador solo se usa durante esta fase de pre-entrenamiento, puede mantenerse muy pequeño, reduciendo aún más la carga computacional. Una vez completado el pre-entrenamiento, el decodificador se descarta y el potente codificador se conserva para aplicaciones posteriores.

Link to this sectionDistinción de términos relacionados#

Para comprender completamente los MAE, es útil entender en qué se diferencian de conceptos de deep learning más antiguos o generales:

  • Autoencoder: Un autoencoder tradicional comprime una entrada completa en un espacio latente más pequeño y luego la reconstruye para aprender codificaciones de datos eficientes. Un MAE, sin embargo, obliga a la red a predecir datos faltantes en lugar de simplemente comprimir y descomprimir toda la entrada.
  • Self-Supervised Learning: Este es el paradigma de entrenamiento general donde un modelo aprende de los propios datos sin etiquetas anotadas por humanos. MAE es una implementación arquitectónica específica de este concepto.
  • Foundation Model: Los MAE se utilizan a menudo para pre-entrenar modelos fundacionales visuales, que luego se ajustan para tareas especializadas.

Link to this sectionAplicaciones en el mundo real#

Debido a que los MAE aprenden representaciones increíblemente robustas de datos visuales, son puntos de partida ideales para sistemas de IA complejos del mundo real.

  • Pre-entrenamiento para detección avanzada de objetos: Las ricas capacidades de extracción de características aprendidas mediante el pre-entrenamiento con MAE pueden aumentar drásticamente el rendimiento de los sistemas de detección de objetos posteriores. Por ejemplo, las características aprendidas a través de MAE pueden utilizarse al entrenar modelos como Ultralytics YOLO26 en conjuntos de datos personalizados y específicos donde los datos etiquetados son escasos.
  • Análisis de imágenes médicas: En campos como la radiología, recopilar conjuntos de datos masivos de resonancias magnéticas o tomografías computarizadas anotadas es costoso y está restringido por leyes de privacidad. Los investigadores utilizan MAE para pre-entrenar modelos en grandes grupos de imágenes médicas no etiquetadas, publicados en literatura académica reciente en arXiv, antes de ajustarlos para detectar tumores o anomalías con muy pocos ejemplos etiquetados.

Link to this sectionGestión de datos y despliegue#

Una vez que una columna vertebral está pre-entrenada utilizando un enfoque MAE, el siguiente paso implica el ajuste fino y el despliegue del modelo para tareas específicas como clasificación de imágenes o segmentación de imágenes. Los ecosistemas modernos en la nube hacen que esta transición sea fluida. Por ejemplo, los equipos pueden aprovechar Ultralytics Platform para anotar fácilmente conjuntos de datos específicos de la tarea, orquestar el entrenamiento en la nube y desplegar los modelos resultantes listos para producción en dispositivos perimetrales o servidores. Esto elimina gran parte del trabajo de infraestructura repetitivo típicamente asociado con machine learning operations (MLOps).

Link to this sectionEjemplo de código: Simulación de enmascaramiento de parches#

Aunque entrenar un MAE completo requiere una arquitectura de transformer completa, el concepto central del enmascaramiento de parches puede visualizarse fácilmente utilizando operaciones de tensor de PyTorch. Este sencillo fragmento demuestra cómo se podrían seleccionar aleatoriamente parches visibles de un tensor de entrada.

import torch


def create_random_mask(batch_size, num_patches, mask_ratio=0.75):
    """Generates a random mask to simulate MAE patch dropping."""
    # Calculate how many patches to keep visible
    num_keep = int(num_patches * (1 - mask_ratio))

    # Generate random noise to determine patch shuffling
    noise = torch.rand(batch_size, num_patches)

    # Sort noise to get random indices
    ids_shuffle = torch.argsort(noise, dim=1)

    # Select the indices of the patches that remain visible
    ids_keep = ids_shuffle[:, :num_keep]

    return ids_keep


# Simulate a batch of 4 images, each divided into 196 patches
visible_patches = create_random_mask(batch_size=4, num_patches=196)
print(f"Visible patch indices shape: {visible_patches.shape}")

Para los desarrolladores que buscan integrar capacidades visuales potentes y pre-entrenadas en sus flujos de trabajo sin escribir arquitecturas desde cero, explorar la amplia documentación de Ultralytics proporciona excelentes puntos de partida para aplicar modelos de visión de vanguardia a tus desafíos únicos. Además, los principales marcos como TensorFlow también proporcionan ecosistemas robustos para implementar investigaciones de machine learning de vanguardia en entornos de producción escalables.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático