Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Modèles d'espace d'état (SSM)

Découvrez comment les modèles d'espace d'état (SSM) permettent une modélisation efficace des séquences. Découvrez comment Ultralytics et la Ultralytics optimisent les workflows IA avancés.

Les modèles d'espace d'état (SSM) constituent une classe puissante d'architectures de modélisation de séquences dans l' apprentissage automatique, conçues pour traiter des flux continus de données dans le temps . Issus à l'origine de la théorie traditionnelle du contrôle, les SSM modernes adaptés à l'apprentissage profond s'imposent aujourd'hui comme des alternatives très efficaces pour traiter des tâches séquentielles complexes. En conservant un « état » interne qui se met à jour à mesure que de nouvelles informations arrivent, ces modèles peuvent mapper des séquences d'entrée à des séquences de sortie avec une efficacité remarquable, ce qui les rend particulièrement aptes à saisir les dépendances à long terme dans les données.

Fonctionnement des modèles d'espace d'état

À la base, les SSM fonctionnent en compressant les informations passées dans un vecteur d'état caché, qui est continuellement mis à jour à mesure que de nouvelles entrées sont traitées. Contrairement aux modèles traditionnels qui peuvent être confrontés à des goulots d'étranglement au niveau de la mémoire, les avancées récentes telles que les modèles d'espace d'état structuré (S4) et l'architecture très populaire Mamba ont introduit des mécanismes sélectifs. Ceux-ci permettent au modèle de filtrer dynamiquement les données non pertinentes et de mémoriser le contexte crucial, ce qui permet d'obtenir des performances élevées sans la surcharge mémoire massive typique des architectures plus anciennes.

Vous pouvez créer des opérations séquentielles fondamentales à l'aide de frameworks standard tels que PyTorch, qui alimente de nombreuses implémentations SSM modernes. Voici un exemple simple et exécutable qui montre comment les données séquentielles peuvent être traitées à travers une couche linéaire dans PyTorch, conceptuellement similaire aux projections continues-discretes utilisées dans le suivi de l'espace d'état :

import torch
import torch.nn as nn

# Simulate a sequence of 10 steps, batch size 2, feature size 16
sequence_data = torch.randn(2, 10, 16)

# A linear projection layer conceptually similar to an SSM state update
state_projection = nn.Linear(16, 32)
hidden_state = state_projection(sequence_data)

print(f"Output shape: {hidden_state.shape}")  # Expected: [2, 10, 32]

Différencier les SSM des architectures connexes

Pour bien comprendre les SSM, il est utile de les distinguer des autres modèles de séquences courants :

  • Transformateurs: alors que les transformateurs reposent sur un mécanisme d'attention qui évolue de manière quadratique avec la longueur de la séquence, les SSM évoluent de manière linéaire. Cela rend les SSM beaucoup plus rapides et plus efficaces en termes de mémoire lors du traitement de contextes extrêmement longs, tels que des livres entiers ou des heures d'enregistrement audio.
  • Réseaux neuronaux récurrents (RNN): Les RNN traitent les tokens de manière séquentielle, mais souffrent notoirement du problème de la disparition du gradient. Les SSM modernes parallélisent mathématiquement les calculs d'entraînement, évitant ainsi cet écueil tout en conservant des vitesses d'inférence rapides.
  • Modèles de Markov cachés (HMM): Les HMM supposent un ensemble fini d'états discrets régis par des distributions de probabilité. En revanche, les SSM d'apprentissage profond utilisent des espaces vectoriels continus, ce qui leur permet de représenter des données beaucoup plus complexes et de haute dimension.

Applications concrètes

L'efficacité des SSM a conduit à une adoption rapide dans divers domaines de l'intelligence artificielle, en particulier lorsque la longueur des séquences crée des goulots d'étranglement au niveau des calculs.

  1. Séquençage génomique et biologique : les séquences d'ADN et de protéines contiennent souvent des millions de paires de bases. Les chercheurs d'institutions telles que l'université de Stanford utilisent des SSM avancés pour modéliser ces séquences massives, accélérant ainsi la recherche clinique et la découverte de médicaments en prédisant les structures moléculaires beaucoup plus rapidement que les réseaux basés sur l'attention.
  2. Analyse continue des séries chronologiques : dans les environnements industriels de l'Internet des objets (IoT) , les capteurs génèrent en continu des flux de données à haute fréquence. Les SSM excellent dans l'analyse de ces données pour la détection d'anomalies, identifiant les défauts mécaniques subtils des équipements de fabrication avant qu'ils ne provoquent des pannes catastrophiques.

Alors que les SSM révolutionnent les données séquentielles et linguistiques, les tâches de vision par ordinateur s'appuient souvent sur des architectures spatiales spécialisées. Par exemple, Ultralytics est largement adopté pour la détection d'objets en temps réel et la segmentation d'instances en raison de son inférence de bout en bout, NMS. Que vous développiez un SSM pour le texte ou que vous déployiez des modèles visuels tels que YOLO26, vous pouvez gérer vos ensembles de données, former et déployer vos solutions de manière transparente à l'aide de Ultralytics , qui permet des workflows efficaces de l'edge au cloud pour toute application d'IA.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant