Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Longformer

Découvrez Longformer, le modèle de transformateur optimisé pour les longues séquences, offrant une efficacité évolutive pour la PNL, la génomique et l'analyse vidéo.

Longformer est une architecture Transformer modifiée spécialement conçue pour traiter efficacement de longues séquences de données, surmontant ainsi les limites de longueur d'entrée des modèles traditionnels tels que BERT. Bien que les Transformers standard soient puissants, leur utilisation de la mémoire évolue de manière quadratique avec la longueur de la séquence, ce qui les rend coûteux en termes de calcul pour les documents de plus de quelques centaines de mots. Longformer résout ce problème en utilisant un mécanisme d'attention clairsemé qui évolue linéairement, ce qui lui permet de traiter des documents composés de milliers de tokens. Cette capacité en fait une technologie fondamentale pour les tâches modernes de traitement du langage naturel (NLP) impliquant des textes volumineux, telles que l'analyse de contrats juridiques, le résumé de livres ou le traitement de données génomiques.

L'architecture : Attention parcimonieuse

L'innovation clé derrière Longformer est son départ de l'auto-attention complète utilisée dans les modèles standards de Deep Learning (DL). modèles standard d'apprentissage profond (DL). Dans une configuration traditionnelle, chaque jeton s'occupe de tous les autres jetons, créant ainsi un réseau dense de connexions qui épuise rapidement la mémoire. Longformer remplace cela par une approche plus efficace et éparse qui maintient des performances élevées tout en réduisant la complexité informatique. tout en réduisant la complexité des calculs.

  • Fenêtre coulissante Attention : Inspiré par la connectivité locale d'un réseau neuronal convolutionnel (CNN) réseau neuronal convolutif (CNN), Longformer utilise une fenêtre coulissante dans laquelle chaque jeton ne s'intéresse qu'à ses voisins immédiats. Cela permet de capturer le contexte local essentiel à la compréhension de la syntaxe et de la structure des phrases.
  • Attention globale : Pour comprendre le contexte plus large d'un document, des jetons spécifiques sont désignés pour s'intéresser à l'ensemble de la séquence. Cela permet au modèle d'effectuer des tâches telles que la réponse à des questions ou la classification en en agrégeant des informations provenant de l'ensemble de l'entrée, comblant ainsi le fossé entre les détails locaux et la compréhension globale. globale.

Ce mécanisme hybride permet aux chercheurs de traiter des séquences allant jusqu'à 4 096 jetons ou plus sur du matériel standard, de la fenêtre contextuelle disponible pour l'analyse. pour l'analyse.

Applications concrètes

La possibilité d'analyser de longues séquences sans les tronquer a ouvert de nouvelles possibilités dans divers domaines où la continuité des données est essentielle. où la continuité des données est essentielle.

  • Résumés juridiques et financiers : Les professionnels ont souvent besoin d'extraire des informations de longs accords ou de rapports annuels. de longs accords ou rapports annuels. Longformer dispose d'outils avancés de des outils avancés de résumé de texte qui peuvent digérer un document entier en un seul passage. l'ensemble d'un document en un seul passage, garantissant que les clauses critiques situées vers la fin d'un contrat sont prises en compte en même temps que l'introduction. l'introduction.
  • Recherche génomique : Dans le domaine de la bioinformatique, les scientifiques analysent séquences d'ADN qui fonctionnent comme comme des chaînes de texte biologique extrêmement longues. Longformer aide à identifier les fonctions des gènes et à prédire les structures des protéines en modélisant les dépendances à longue portée inhérentes aux codes génétiques. structures protéiques en modélisant les dépendances à longue portée inhérentes aux codes génétiques, une tâche auparavant difficile pour les grands modèles de langage (LLM) standard. pour les grands modèles de langage (LLM) standard.

Distinguer la longue forme des concepts apparentés

Il est utile de comparer Longformer avec d'autres architectures afin de choisir l'outil adéquat pour des projets spécifiques d'intelligence artificielle (IA). projets d'intelligence artificielle (IA).

  • Transformer: l'architecture originale offre une connectivité totale et est idéale pour les phrases courtes, mais devient prohibitive en termes de mémoire pour les entrées longues . Longformer s'en rapproche avec une complexité linéaire.
  • Reformer: Comme Longformer, Reformer vise l'efficacité mais l'atteint en utilisant un hachage sensible à la localité (LSH ) pour regrouper les pour regrouper les jetons similaires et des couches résiduelles réversibles. Longformer est souvent préféré pour les tâches nécessitant des contextes locaux strictement définis (mots voisins), tandis que Reformer est utile lorsque la mémoire est le goulot d'étranglement absolu.
  • Transformateur-XL: Ce modèle traite la longueur par récurrence, en gardant la mémoire des segments antérieurs. Longformer traite l'ensemble de la longue séquence simultanément, ce qui peut être avantageux pour les tâches non autorégressives comme la classification des documents. simultanément, ce qui peut être avantageux pour les tâches non autorégressives telles que la classification de documents.

Exemple d'inférence efficace

Tout comme Longformer optimise le traitement de texte pour la vitesse et la mémoire, les modèles de vision modernes optimisent le traitement d'image pour gérer efficacement les entrées complexes. L'exemple suivant utilise Ultralytics pour démontrer une inférence efficace. Cela correspond au concept d'utilisation d'architectures optimisées pour traiter les données sans surcharger les ressources matérielles.

from ultralytics import YOLO

# Load a YOLO26 model, optimized for speed and efficiency similar to Longformer's design goals
model = YOLO("yolo26n.pt")

# Perform inference on an image URL
# The model processes the input effectively in a single pass
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Output the detection summary
for result in results:
    print(f"Detected {len(result.boxes)} objects.")

En réduisant l'empreinte mémoire nécessaire au traitement de données volumineuses, les architectures telles que Longformer permettent aux développeurs de créer des agents IA et des outils analytiques plus sophistiqués . Cette évolution vers une évolutivité linéaire est essentielle pour l'avenir du déploiement des modèles, garantissant que l'IA puissante reste accessible et efficace.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant