Glossaire

Modèle de Markov caché (HMM)

Découvre les modèles de Markov cachés (HMM), leurs principes, leurs applications dans la reconnaissance vocale, la bio-informatique et l'IA, et comment ils déduisent les états cachés.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Un modèle de Markov caché (HMM) est un modèle statistique utilisé pour décrire les systèmes qui passent d'un état à l'autre au fil du temps. Dans les HMM, la séquence des états par lesquels passe le système n'est pas directement observable (elle est "cachée"), mais elle peut être déduite d'une séquence de sorties ou d'émissions observables produites par chaque état. Les HMM sont particulièrement puissants pour la modélisation des données séquentielles et l'analyse des séries temporelles dans divers domaines de l'intelligence artificielle (AI) et de l'apprentissage automatique (ML). Ils appartiennent à une classe de modèles connus sous le nom de modèles graphiques probabilistes, fournissant un cadre pour gérer l'incertitude dans les systèmes dynamiques.

Concepts de base

Les HMM sont définis par deux processus stochastiques (aléatoires) principaux :

  1. États cachés : Une chaîne de Markov sous-jacente et inobservable d'états. Le système passe d'un état caché à l'autre en fonction de probabilités spécifiques. L'hypothèse de base est la propriété de Markov : la probabilité de passer à l'état suivant ne dépend que de l'état actuel, et non de la séquence d'états qui l'a précédé.
  2. Émissions observables : Chaque état caché génère une sortie ou une émission observable basée sur une certaine distribution de probabilité. Ces émissions sont les données que nous observons réellement.

Le modèle se caractérise par :

  • États : Un ensemble fini d'états cachés.
  • Observations : Un ensemble fini d'émissions ou d'observations possibles.
  • Probabilités de transition : Les probabilités de passer d'un état caché à un autre.
  • Probabilités d'émission : Les probabilités d'observer une émission particulière étant donné que le système se trouve dans un état caché spécifique.
  • Distribution de l'état initial : Les probabilités que le système commence dans chaque état caché.

Comment fonctionnent les modèles de Markov cachés

Pour travailler avec les HMM, il faut généralement résoudre trois problèmes fondamentaux, souvent abordés à l'aide d'algorithmes spécifiques détaillés dans des tutoriels comme celui de Rabiner:

  1. Problème d'évaluation : Étant donné un HMM et une séquence d'observations, quelle est la probabilité que les observations aient été générées par le modèle ? (Résolu à l'aide de l'algorithme Forward).
  2. Problème de décodage : étant donné un HMM et une séquence d'observations, quelle est la séquence la plus probable d'états cachés qui a produit ces observations ? (Résolu à l'aide de l'algorithme de Viterbi).
  3. Problème d'apprentissage : étant donné une séquence d'observations (ou plusieurs séquences), comment pouvons-nous ajuster les paramètres du HMM (probabilités de transition et d'émission) pour tenir compte au mieux des données observées ? (Souvent résolu à l'aide de l'algorithme de Baum-Welch, une instance de l'algorithme de maximisation des attentes). Cette question est cruciale pour l'apprentissage du modèle.

Applications dans le monde réel

Les HMM ont été utilisés avec succès dans de nombreux domaines :

  • Reconnaissance de la parole: Il s'agit d'une application classique. Les états cachés peuvent représenter des phonèmes (unités de base du son), tandis que les observations sont des caractéristiques acoustiques extraites du signal de la parole. Le HMM décode la séquence de phonèmes la plus probable compte tenu de l'audio, ce qui constitue la base de la reconnaissance des mots. Des outils tels que CMU Sphinx se sont toujours appuyés sur les HMM.
  • Bioinformatique : Les HMM sont largement utilisés pour l'analyse des séquences. Par exemple, dans la recherche de gènes, les états cachés peuvent représenter des régions codantes, des régions non codantes ou des structures génétiques spécifiques (comme les codons de départ, les exons, les introns). Les observations sont les paires de bases d'ADN (A, C, G, T). Le modèle permet d'identifier l'emplacement des gènes dans une longue séquence d'ADN. Un logiciel comme HMMER utilise des HMM de profil pour l'analyse des séquences de protéines, en comparant les séquences à des bases de données telles que la base de données Gene du NCBI.
  • Traitement du langage naturel (NLP) : Utilisé pour des tâches telles que l'étiquetage de la partie du discours, où les états cachés sont les étiquettes grammaticales (nom, verbe, adjectif) et les observations sont les mots d'une phrase. S'applique également à la reconnaissance des entités nommées (NER).
  • Vision par ordinateur (VA): Appliquée à la reconnaissance des gestes, à la reconnaissance d'activités à partir de vidéos, et parfois historiquement au suivi d'objets, bien que souvent supplantée par des méthodes comme les filtres de Kalman ou les approches d'apprentissage profond.
  • Finance : Modélisation des régimes de marché (par exemple, marchés haussiers ou baissiers) en tant qu'états cachés basés sur des indicateurs financiers observables.
  • Analyse d'images médicales: Analyse des séquences d'images ou de signaux médicaux au fil du temps.

Comparaison avec des concepts apparentés

Il est important de distinguer les HMM des autres modèles de séquence :

Alors que les nouvelles méthodes d'apprentissage profond permettent souvent d'obtenir des résultats à la pointe de la technologie, les HMM restent précieux pour leur interprétabilité (états et probabilités explicites) et leur efficacité, en particulier lorsque les données d'entraînement sont limitées ou que les connaissances du domaine peuvent être incorporées dans la structure du modèle. Comprendre les concepts fondamentaux comme les HMM fournit un contexte précieux dans le paysage ML plus large, même lorsqu'on utilise des plateformes comme Ultralytics HUB qui facilitent principalement le développement et le déploiement de modèles DL tels que. YOLOv8 ou YOLO11.

Tout lire