Glossaire

Réformateur

Découvrez le modèle Reformer : une architecture de transformateur révolutionnaire optimisée pour les longues séquences avec attention LSH et couches réversibles.

Reformer est un type efficace de modèle Transformer développé par des chercheurs de Google AI. Il a été conçu pour traiter des séquences de données extrêmement longues, ce qui représente un défi important pour les architectures Transformer standard en raison de leur utilisation élevée de la mémoire et de leurs exigences en matière de calcul. Grâce à l'introduction de nouvelles techniques, Reformer peut traiter des contextes allant jusqu'à un million de mots sur un seul accélérateur, ce qui permet de travailler avec des livres entiers ou des images à haute résolution. Cette efficacité est essentielle pour améliorer les capacités des grands modèles de langage (LLM) et d'autres tâches basées sur les séquences dans l'intelligence artificielle (IA).

Comment le réformateur atteint-il l'efficacité ?

L'efficacité de Reformer provient de deux innovations principales qui s'attaquent aux goulets d'étranglement du mécanisme d'attention standard et de l'allocation de mémoire :

  • Hachage sensible à la localité (LSH) Attention : Les transformateurs traditionnels calculent un score d'attention pour chaque paire de mots dans une séquence, ce qui devient coûteux en termes de calcul lorsque la longueur de la séquence augmente. Reformer remplace cette attention totale par une approximation utilisant le hachage sensible à la localité (LSH). Cette technique consiste à regrouper les mots similaires en godets et à ne calculer l'attention qu'à l'intérieur de ces petits groupes, ce qui réduit considérablement la charge de calcul. Elle repose sur le principe selon lequel les mots dont le sens (ou l'espace vectoriel) est proche sont susceptibles d'être hachés dans le même panier.
  • Couches résiduelles réversibles : Pour économiser de la mémoire, les réseaux neuronaux standard stockent les activations de chaque couche pour les utiliser lors de la rétropropagation. Cela consomme une grande quantité de mémoire, en particulier dans les modèles profonds. Reformer utilise des couches réversibles, qui permettent de recalculer les activations de n'importe quelle couche à partir des activations de la couche suivante pendant la formation. Il n'est donc pas nécessaire de stocker les activations en mémoire, ce qui réduit considérablement l'empreinte mémoire et permet l'apprentissage de modèles beaucoup plus vastes. Ce concept est décrit en détail dans le document de recherche original de Reformer.

Applications

La capacité de Reformer à traiter de longues séquences le rend adapté à diverses tâches d'apprentissage automatique, en particulier dans le domaine du traitement du langage naturel (NLP) et au-delà :

  • Analyse de documents longs : Résumer ou répondre à des questions sur des livres entiers, de longs articles de recherche ou des documents juridiques dont le contexte s'étend sur des milliers ou des millions de mots. Par exemple, un modèle Reformer pourrait être utilisé pour générer un résumé concis d'un rapport technique de plusieurs chapitres.
  • Génomique : Traitement de longues séquences d'ADN ou de protéines à des fins d'analyse et de reconnaissance de modèles. Les données génomiques peuvent être constituées de milliards de paires de bases, ce qui fait de Reformer une architecture idéale pour l'identification de modèles ou de mutations.
  • Traitement des médias de longue durée : Analyse de longs fichiers audio pour la reconnaissance vocale, la génération de musique basée sur des compositions étendues ou l'analyse vidéo sur de longues durées. Il s'agit par exemple de transcrire efficacement des réunions ou des conférences de plusieurs heures.
  • Génération d'images : Certaines approches traitent les images comme des séquences de pixels, en particulier pour les images à haute résolution. Reformer peut potentiellement traiter ces très longues séquences pour des tâches telles que la génération de texte à partir d'images.
  • Analyse des séries temporelles étendues : Modélisation de séries chronologiques très longues, telles que la prévision des tendances du marché boursier sur plusieurs décennies ou l'analyse de données climatiques à long terme.

Alors que des modèles comme Ultralytics YOLO se concentrent sur la détection efficace d'objets dans les images, en utilisant souvent des réseaux neuronaux convolutifs (CNN) ou des architectures hybrides comme RT-DETR construites avec des frameworks comme PyTorch, les principes d'efficacité de calcul et de mémoire explorés dans Reformer sont pertinents dans tout le domaine de l'apprentissage profond. Comprendre ces avancées permet de stimuler l'innovation vers des modèles d'IA plus performants et plus accessibles. Des plateformes comme Ultralytics HUB visent à simplifier le développement de l'IA et le déploiement des modèles.

Comparaison avec d'autres modèles de séquences longues

Reformer est l'un des nombreux modèles conçus pour surmonter les limites des transformateurs standard. Il est important de le distinguer des autres :

  • Longformer : Comme Reformer, Longformer est conçu pour les longues séquences. Cependant, il utilise un modèle d'attention différent combinant une fenêtre coulissante (attention locale) avec quelques jetons d'attention globale. Cela le rend très efficace pour les documents où le contexte local est le plus important, mais il est moins flexible que l'approche de Reformer basée sur le hachage pour capturer les relations distantes.
  • Transformer-XL : Ce modèle introduit la récurrence dans l'architecture de Transformer, permettant à l'information de circuler d'un segment de texte à l'autre. Transformer-XL est particulièrement efficace pour les tâches autorégressives telles que la modélisation linguistique, mais il n'est pas conçu pour traiter une entrée unique et extrêmement longue en un seul passage, comme Reformer ou Longformer.
  • Transformateur standard : Le modèle original de Transformer utilise l'auto-attention complète, ce qui le rend très efficace mais peu pratique pour des séquences plus longues que quelques milliers de jetons en raison de sa complexité quadratique. La principale contribution de Reformer est de rendre possible des performances similaires à celles de Transformer pour des entrées beaucoup plus longues. Vous trouverez d'autres comparaisons de modèles dans notre documentation.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers