Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Longformer

Découvrez Longformer, le modèle de transformateur optimisé pour les longues séquences, offrant une efficacité évolutive pour la PNL, la génomique et l'analyse vidéo.

Longformer est une architecture Transformer modifiée conçue pour traiter efficacement de longues séquences de données, en surmontant les limitations de longueur d'entrée des modèles traditionnels comme le BERT. Bien que les transformateurs standard soient puissants, leur utilisation de la mémoire augmente de façon quadratique avec la longueur de la séquence, ce qui les rend coûteux en termes de calcul pour les documents de plus de quelques centaines de mots. de la séquence, ce qui les rend très coûteux pour les documents de plus de quelques centaines de mots. Longformer résout ce problème en employant un mécanisme d'attention clairsemée qui s'échelonne linéairement, ce qui lui permet de traiter des documents composés de milliers de mots. Cette capacité en fait la pierre angulaire pour le traitement moderne du langage naturel (NLP). traitement du langage naturel (NLP) modernes impliquant des textes volumineux, tels que l'analyse de contrats juridiques, le résumé de livres ou le traitement de données génomiques.

L'architecture : Attention parcimonieuse

L'innovation clé derrière Longformer est son départ de l'auto-attention complète utilisée dans les modèles standards de Deep Learning (DL). modèles standard d'apprentissage profond (DL). Dans une configuration traditionnelle, chaque jeton s'occupe de tous les autres jetons, créant ainsi un réseau dense de connexions qui épuise rapidement la mémoire. Longformer remplace cela par une approche plus efficace et éparse qui maintient des performances élevées tout en réduisant la complexité informatique. tout en réduisant la complexité des calculs.

  • Fenêtre coulissante Attention : Inspiré par la connectivité locale d'un réseau neuronal convolutionnel (CNN) réseau neuronal convolutif (CNN), Longformer utilise une fenêtre coulissante dans laquelle chaque jeton ne s'intéresse qu'à ses voisins immédiats. Cela permet de capturer le contexte local essentiel à la compréhension de la syntaxe et de la structure des phrases.
  • Attention globale : Pour comprendre le contexte plus large d'un document, des jetons spécifiques sont désignés pour s'intéresser à l'ensemble de la séquence. Cela permet au modèle d'effectuer des tâches telles que la réponse à des questions ou la classification en en agrégeant des informations provenant de l'ensemble de l'entrée, comblant ainsi le fossé entre les détails locaux et la compréhension globale. globale.

Ce mécanisme hybride permet aux chercheurs de traiter des séquences allant jusqu'à 4 096 jetons ou plus sur du matériel standard, de la fenêtre contextuelle disponible pour l'analyse. pour l'analyse.

Applications concrètes

La possibilité d'analyser de longues séquences sans les tronquer a ouvert de nouvelles possibilités dans divers domaines où la continuité des données est essentielle. où la continuité des données est essentielle.

  • Résumés juridiques et financiers : Les professionnels ont souvent besoin d'extraire des informations de longs accords ou de rapports annuels. de longs accords ou rapports annuels. Longformer dispose d'outils avancés de des outils avancés de résumé de texte qui peuvent digérer un document entier en un seul passage. l'ensemble d'un document en un seul passage, garantissant que les clauses critiques situées vers la fin d'un contrat sont prises en compte en même temps que l'introduction. l'introduction.
  • Recherche génomique : Dans le domaine de la bioinformatique, les scientifiques analysent séquences d'ADN qui fonctionnent comme comme des chaînes de texte biologique extrêmement longues. Longformer aide à identifier les fonctions des gènes et à prédire les structures des protéines en modélisant les dépendances à longue portée inhérentes aux codes génétiques. structures protéiques en modélisant les dépendances à longue portée inhérentes aux codes génétiques, une tâche auparavant difficile pour les grands modèles de langage (LLM) standard. pour les grands modèles de langage (LLM) standard.

Distinguer la longue forme des concepts apparentés

Il est utile de comparer Longformer avec d'autres architectures afin de choisir l'outil adéquat pour des projets spécifiques d'intelligence artificielle (IA). projets d'intelligence artificielle (IA).

  • Transformateur: L'architecture originale offre une connectivité totale ($O(n^2)$) et est idéale pour les phrases courtes, mais devient prohibitive en termes de mémoire pour les entrées longues. pour les entrées longues. Longformer s'en rapproche avec une complexité de $O(n)$.
  • Reformer: Comme Longformer, Reformer vise l'efficacité mais l'atteint en utilisant un hachage sensible à la localité (LSH ) pour regrouper les pour regrouper les jetons similaires et des couches résiduelles réversibles. Longformer est souvent préféré pour les tâches nécessitant des contextes locaux strictement définis (mots voisins), tandis que Reformer est utile lorsque la mémoire est le goulot d'étranglement absolu.
  • Transformateur-XL: Ce modèle traite la longueur par récurrence, en gardant la mémoire des segments antérieurs. Longformer traite l'ensemble de la longue séquence simultanément, ce qui peut être avantageux pour les tâches non autorégressives comme la classification des documents. simultanément, ce qui peut être avantageux pour les tâches non autorégressives telles que la classification de documents.

Exemple d'inférence efficace

Tout comme Longformer optimise le traitement des textes en termes de vitesse et de mémoire, les modèles de vision modernes optimisent le traitement des images. L'exemple exemple suivant utilise Ultralytics YOLO11 pour démontrer l'inférence efficace. Cet exemple fait écho au concept d'utilisation d'architectures optimisées pour traiter des données complexes sans surcharger les ressources matérielles. sans surcharger les ressources matérielles.

from ultralytics import YOLO

# Load a YOLO11 model, optimized for efficiency similar to Longformer's design goals
model = YOLO("yolo11n.pt")

# Perform inference on an image URL
# The model processes the input effectively in a single pass
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Output the detection summary
for result in results:
    print(f"Detected {len(result.boxes)} objects.")

En réduisant l'empreinte mémoire nécessaire au traitement de données volumineuses, Longformer permet aux développeurs de créer des agents d'IA et des outils d'analyse plus sophistiqués. des agents d'IA et des outils analytiques plus sophistiqués. Cette évolution vers l'évolutivité linéaire est essentielle pour l'avenir du déploiement de modèles, en veillant à ce que l'IA puissante reste accessible et efficace. l'IA puissante reste accessible et efficace.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant