Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

Masked Autoencoders (MAE)

Explore comment les autoencodeurs masqués (MAE) révolutionnent l'apprentissage auto-supervisé. Apprends comment la reconstruction par MAE améliore les performances et l'efficacité d'Ultralytics YOLO26.

Les Masked Autoencoders (MAE) représentent une approche hautement efficace et évolutive de l'apprentissage auto-supervisé dans le domaine plus large de la vision par ordinateur. Présenté comme une méthode pour entraîner des réseaux de neurones fortement paramétrés sans nécessiter de jeux de données largement étiquetés, un MAE fonctionne en occultant intentionnellement une grande partie aléatoire d'une image d'entrée et en entraînant le modèle à reconstruire les pixels manquants. En réussissant à prédire les informations visuelles cachées, le réseau apprend intrinsèquement une compréhension sémantique profonde des formes, des textures et des relations spatiales.

Cette technique est fortement inspirée par le succès de la modélisation de langage masqué dans les systèmes basés sur le texte, mais adaptée à la nature multidimensionnelle des données d'image. L'architecture repose sur le framework très populaire transformer, utilisant une structure encodeur-décodeur asymétrique.

Link to this sectionComment fonctionnent les Masked Autoencoders#

L'innovation principale du MAE réside dans son efficacité de traitement. Pendant l'entraînement, l'image d'entrée est divisée en une grille de patchs. Un pourcentage élevé de ces patchs (souvent jusqu'à 75 %) est masqué de manière aléatoire et ignoré. L'encodeur, généralement un Vision Transformer (ViT), ne traite que les patchs visibles et non masqués. Comme l'encodeur ignore entièrement les parties masquées, il nécessite beaucoup moins de calculs et de mémoire, ce qui rend le processus d'entraînement remarquablement rapide.

Une fois que l'encodeur a généré des représentations latentes des patchs visibles, un décodeur léger prend le relais. Le décodeur reçoit les patchs visibles encodés ainsi que des « jetons de masque » (des espaces réservés pour les données manquantes) et tente de reconstruire l'image originale. Comme le décodeur n'est utilisé que pendant cette phase de pré-entraînement, il peut être maintenu très petit, réduisant davantage la surcharge computationnelle. Une fois le pré-entraînement terminé, le décodeur est écarté et le puissant encodeur est conservé pour les applications en aval.

Link to this sectionDistinguer les termes associés#

Pour bien saisir les MAE, il est utile de comprendre en quoi ils diffèrent des concepts plus anciens ou plus larges de l'apprentissage profond :

  • Autoencoder : Un autoencoder traditionnel compresse une entrée entière dans un espace latent plus petit puis la reconstruit pour apprendre des codages de données efficaces. Un MAE, en revanche, force le réseau à prédire des données manquantes plutôt que de simplement compresser et décompresser toute l'entrée.
  • Apprentissage auto-supervisé : Il s'agit du paradigme d'entraînement global où un modèle apprend à partir des données elles-mêmes sans étiquettes annotées par l'humain. Le MAE est une implémentation architecturale spécifique de ce concept.
  • Modèle de fondation : Les MAE sont souvent utilisés pour pré-entraîner des modèles de fondation visuels, qui sont ensuite affinés pour des tâches spécialisées.

Link to this sectionApplications concrètes#

Parce que les MAE apprennent des représentations incroyablement robustes des données visuelles, ils sont des points de départ idéaux pour des systèmes d'IA complexes et concrets.

  • Pré-entraînement pour la détection d'objets avancée : Les riches capacités d'extraction de caractéristiques apprises via le pré-entraînement MAE peuvent considérablement booster les performances des systèmes de détection d'objets en aval. Par exemple, les caractéristiques apprises grâce au MAE peuvent être utilisées lors de l'entraînement de modèles comme Ultralytics YOLO26 sur des jeux de données personnalisés et spécifiques où les données étiquetées sont rares.
  • Analyse d'images médicales : Dans des domaines comme la radiologie, la collecte de jeux de données massifs d'IRM ou de scanners annotés est coûteuse et restreinte par les lois sur la vie privée. Les chercheurs utilisent les MAE pour pré-entraîner des modèles sur de grands ensembles d'images médicales non étiquetées, publiés dans la littérature académique récente sur arXiv, avant de les affiner pour détecter des tumeurs ou des anomalies avec très peu d'exemples étiquetés.

Link to this sectionGestion des données et déploiement#

Une fois qu'un backbone est pré-entraîné en utilisant une approche MAE, l'étape suivante consiste à affiner et à déployer le modèle pour des tâches spécifiques comme la classification d'images ou la segmentation d'images. Les écosystèmes cloud modernes rendent cette transition fluide. Par exemple, les équipes peuvent tirer parti de la plateforme Ultralytics pour annoter facilement des jeux de données spécifiques à une tâche, orchestrer l'entraînement dans le cloud et déployer les modèles prêts pour la production sur des appareils de bord ou des serveurs. Cela élimine une grande partie du travail d'infrastructure répétitif généralement associé aux opérations d'apprentissage automatique (MLOps).

Link to this sectionExemple de code : Simulation du masquage de patchs#

Bien que l'entraînement d'un MAE complet nécessite une architecture transformer complète, le concept central du masquage de patchs peut être facilement visualisé en utilisant des opérations sur tenseurs PyTorch. Ce simple extrait démontre comment on pourrait sélectionner aléatoirement des patchs visibles à partir d'un tenseur d'entrée.

import torch


def create_random_mask(batch_size, num_patches, mask_ratio=0.75):
    """Generates a random mask to simulate MAE patch dropping."""
    # Calculate how many patches to keep visible
    num_keep = int(num_patches * (1 - mask_ratio))

    # Generate random noise to determine patch shuffling
    noise = torch.rand(batch_size, num_patches)

    # Sort noise to get random indices
    ids_shuffle = torch.argsort(noise, dim=1)

    # Select the indices of the patches that remain visible
    ids_keep = ids_shuffle[:, :num_keep]

    return ids_keep


# Simulate a batch of 4 images, each divided into 196 patches
visible_patches = create_random_mask(batch_size=4, num_patches=196)
print(f"Visible patch indices shape: {visible_patches.shape}")

Pour les développeurs cherchant à intégrer de puissantes capacités visuelles pré-entraînées dans leurs workflows sans écrire d'architectures à partir de zéro, explorer la vaste documentation Ultralytics fournit d'excellents points de départ pour appliquer des modèles de vision à la pointe de la technologie à tes défis uniques. De plus, des frameworks majeurs comme TensorFlow offrent également des écosystèmes robustes pour mettre en œuvre des recherches de pointe en apprentissage automatique dans des environnements de production évolutifs.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique