Glossaire

Machine à vecteurs de support (SVM)

Découvrez la puissance des machines à vecteurs de support (SVM) pour la classification, la régression et la détection des valeurs aberrantes, avec des applications et des informations du monde réel.

Le Support Vector Machine (SVM) est un algorithme populaire et puissant d'apprentissage automatique supervisé (ML) utilisé principalement pour les tâches de classification, bien qu'il soit également efficace pour la régression (Support Vector Regression - SVR) et la détection des valeurs aberrantes. Développés dans les années 1990, les SVM, détaillés sur Wikipedia, fonctionnent en trouvant une frontière optimale, appelée hyperplan, qui sépare au mieux les points de données appartenant à différentes classes dans un espace à haute dimension. L'idée principale est de maximiser la marge, c'est-à-dire la distance entre l'hyperplan et les points de données les plus proches (vecteurs de support) de chaque classe, ce qui permet souvent d'obtenir de bonnes performances en matière de généralisation sur des données inédites.

Comment fonctionne le Svm

Le principe de base des SVM consiste à trouver l'hyperplan idéal pour diviser un ensemble de données. Pour les données qui peuvent être séparées par une ligne droite ou un plan plat (données linéairement séparables), le SVM identifie l'hyperplan qui crée le plus grand écart possible entre les classes. Les points des données d'apprentissage les plus proches de cet hyperplan, qui sont essentiels pour définir sa position et son orientation, sont appelés vecteurs de support. Cette focalisation sur les points les plus difficiles près de la frontière rend les SVM efficaces en termes de mémoire, car seuls ces vecteurs de support sont nécessaires pour définir le modèle après l'apprentissage.

Pour les ensembles de données où les classes ne peuvent être séparées par une frontière linéaire (données non linéairement séparables), les SVM utilisent une technique appelée " astuce du noyau". Cette méthode astucieuse permet aux SVM de représenter les données d'origine dans un espace de dimension supérieure où une séparation linéaire pourrait être possible, sans calculer explicitement les coordonnées dans ce nouvel espace. Les fonctions de noyau les plus courantes sont les suivantes

  • Linéaire : Pour les données linéairement séparables.
  • Polynomial : Permet de transposer les données dans des dimensions supérieures à l'aide de fonctions polynomiales.
  • Fonction de base radiale (RBF): Un choix populaire pour les relations complexes et non linéaires.
  • Sigmoïde : Semblable à la fonction d'activation utilisée dans les réseaux neuronaux (NN).

Le choix du noyau et de ses paramètres est crucial et nécessite souvent un réglage minutieux des hyperparamètres.

Pertinence et applications

Les SVM restent pertinents malgré l'essor de l'apprentissage profond (DL), en particulier dans les scénarios avec des données de haute dimension (de nombreuses caractéristiques) mais des échantillons d'entraînement limités. Ils sont connus pour leurs garanties théoriques et leur robustesse, en particulier lorsqu'il existe une marge de séparation claire. Historiquement, les SVM combinés à des extracteurs de caractéristiques tels que l'histogramme des gradients orientés (HOG) étaient à la pointe de la technologie pour des tâches telles que la détection d'objets, comme le montre l'évolution de la détection d'objets.

Les applications les plus courantes sont les suivantes

  • Classification d'images: Catégorisation d'images en fonction de leur contenu (par exemple, distinction entre différents types de fleurs ou d'animaux). Les SVM peuvent s'avérer efficaces lorsqu'ils sont utilisés avec des caractéristiques artisanales extraites des images, en particulier sur des ensembles de données de taille modérée.
  • Catégorisation de texte: Classification de documents textuels dans des catégories prédéfinies, comme la détection des courriers électroniques non sollicités ou l'analyse du sentiment des avis des clients. Les SVM gèrent bien les données textuelles à haute dimension (comme les caractéristiques TF-IDF).
  • Bioinformatique: Utilisée pour des tâches telles que la classification des protéines ou le diagnostic du cancer sur la base de données d'expression génique, où le nombre de caractéristiques peut être très important par rapport au nombre d'échantillons.
  • Reconnaissance faciale: Identification ou vérification d'individus sur la base de caractéristiques faciales, souvent dans le cadre d'un système plus large.

Avantages et limites

Avantages :

  • Efficace en haute dimension : Donne de bons résultats même lorsque le nombre de caractéristiques est supérieur au nombre d'échantillons.
  • Efficace en termes de mémoire : N'utilise qu'un sous-ensemble de points d'entraînement (vecteurs de support) dans la fonction de décision.
  • Polyvalent : Différentes fonctions noyaux peuvent être spécifiées pour la fonction de décision, ce qui permet une grande souplesse dans le traitement de différents types de données.
  • Bonne généralisation : L'objectif de maximisation de la marge conduit souvent à des modèles ayant une bonne précision sur des données inédites.

Limites :

  • Intensif en termes de calcul : La formation peut être lente sur de très grands ensembles de données.
  • Sensibilité du noyau et des paramètres : Les performances dépendent fortement du choix du noyau et de ses paramètres (par exemple, C, gamma), ce qui nécessite un réglage minutieux.
  • Mauvaises performances en cas de chevauchement des classes : Pas idéal si les classes de données se chevauchent de manière significative.
  • Pas d'estimation directe des probabilités : Les SVM standard produisent des affectations de classes mais pas de scores de probabilité directs. Des techniques telles que la mise à l'échelle de Platt sont nécessaires pour calibrer les résultats des SVM en probabilités.

Svm vs. autres algorithmes

Par rapport à des algorithmes plus simples comme la régression logistique, les SVM visent à maximiser la marge plutôt qu'à trouver une limite de séparation, ce qui peut conduire à une meilleure généralisation. Contrairement aux méthodes arborescentes telles que les arbres de décision ou les forêts aléatoires, les SVM construisent un seul hyperplan optimal (éventuellement dans un espace à haute dimension). Alors que les modèles modernes d'apprentissage profond comme Ultralytics YOLO excellent dans l'extraction automatique de caractéristiques à partir de données brutes (comme les pixels dans la vision par ordinateur (CV)), les SVM nécessitent souvent une ingénierie minutieuse des caractéristiques, mais peuvent être exceptionnellement performants sur des ensembles de données plus petits ou des types spécifiques de données structurées où les caractéristiques sont bien définies. Les implémentations populaires incluent LibSVM et le module SVM dans scikit-learn. La formation et la gestion de ces modèles, ainsi que d'autres, peuvent être rationalisées à l'aide de plateformes comme Ultralytics HUB, qui simplifie le cycle de vie des MLOps.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers