Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

Ingénierie des caractéristiques

Améliorez la précision de l'apprentissage automatique grâce à l'ingénierie des caractéristiques. Découvrez les techniques de création, de transformation et de sélection de caractéristiques percutantes.

L'ingénierie des caractéristiques est le processus qui consiste à utiliser la connaissance du domaine pour sélectionner, créer et transformer des données brutes en caractéristiques qui représentent mieux le problème sous-jacent pour les modèles prédictifs. Il s'agit d'une étape essentielle et souvent longue du pipeline d'apprentissage automatique (AA), car la qualité des caractéristiques a un impact direct sur les performances et la précision du modèle résultant. Une ingénierie des caractéristiques efficace peut faire la différence entre un modèle médiocre et un modèle très précis, ce qui permet souvent d'obtenir des gains de performance plus importants que le choix d'un algorithme différent ou d'un réglage des hyperparamètres poussé.

## Le processus d'ingénierie des caractéristiques

L'ingénierie des caractéristiques est à la fois un art et une science, combinant l'expertise du domaine avec des techniques mathématiques. Le processus peut être décomposé en plusieurs activités courantes, souvent gérées à l'aide de bibliothèques telles que le module de prétraitement de scikit-learn ou d'outils spécialisés pour l'ingénierie automatisée des caractéristiques.

  • Création de caractéristiques : cela implique la création de nouvelles caractéristiques à partir de celles qui existent déjà. Par exemple, dans un ensemble de données de vente au détail, vous pouvez soustraire une « date d’achat » d’une date « client depuis le » pour créer une caractéristique de « durée de fidélité du client ». Dans l’analyse des séries chronologiques, vous pouvez dériver des caractéristiques telles que les moyennes mobiles ou la saisonnalité à partir d’un horodatage.
  • Transformations : Les données brutes doivent souvent être transformées pour répondre aux hypothèses d'un algorithme d'apprentissage automatique. Cela inclut la mise à l'échelle des caractéristiques numériques, l'application de transformations logarithmiques pour gérer les données asymétriques ou l'utilisation de techniques comme le binning pour regrouper les nombres en catégories.
  • Encodage : De nombreux modèles de ML ne peuvent pas gérer directement les données catégorielles. L'encodage implique la conversion de catégories textuelles en représentations numériques. Les méthodes courantes incluent l'encodage one-hot, où chaque valeur de catégorie est convertie en une nouvelle colonne binaire, et l'encodage d'étiquettes.
  • Sélection de caractéristiques : toutes les caractéristiques ne sont pas utiles. Certaines peuvent être redondantes ou non pertinentes, introduisant du bruit qui peut entraîner un surapprentissage. La sélection de caractéristiques vise à choisir un sous-ensemble des caractéristiques les plus pertinentes afin d’améliorer les performances du modèle et de réduire les coûts de calcul.

## Applications concrètes

L'impact de l'ingénierie des caractéristiques est évident dans de nombreux secteurs. Son efficacité dépend souvent d'une connaissance approfondie du domaine pour créer des caractéristiques qui capturent réellement les signaux prédictifs.

  1. Scoring de crédit : Dans le domaine de la finance, les données brutes des clients peuvent inclure le revenu, l'âge et l'historique des prêts. Un ingénieur spécialisé dans les caractéristiques peut créer de nouvelles variables telles que le « ratio dette/revenu » (en divisant la dette totale par le revenu brut) ou l'« utilisation du crédit » (en divisant le solde de la carte de crédit par la limite de crédit). Ces caractéristiques techniques fournissent un signal beaucoup plus clair de la santé financière d'une personne que les chiffres bruts seuls, ce qui permet d'obtenir des modèles de risque de crédit plus précis.
  2. Maintenance prédictive : Dans la fabrication, les capteurs sur les machines produisent de vastes flux de données brutes comme les vibrations, la température et la vitesse de rotation. Pour prédire les pannes, un ingénieur peut créer des caractéristiques telles que la « moyenne mobile de la température au cours des dernières 24 heures » ou « l'écart type des vibrations ». Ces caractéristiques peuvent révéler des schémas subtils de dégradation qui précèdent une panne mécanique, permettant une maintenance proactive et évitant des temps d'arrêt coûteux.

## Ingénierie des caractéristiques vs. Concepts connexes

Il est important de distinguer l'ingénierie des caractéristiques des termes connexes en IA et en science des données.

  • Ingénierie des caractéristiques c. Extraction de caractéristiques : l’ingénierie des caractéristiques est un processus largement manuel de création de nouvelles caractéristiques basé sur l’intuition et l’expertise. L’extraction de caractéristiques est généralement un processus automatisé de transformation des données en un ensemble réduit de caractéristiques. Dans l’apprentissage profond, les modèles comme les réseaux neuronaux convolutifs (CNN) effectuent automatiquement l’extraction de caractéristiques, en apprenant les caractéristiques hiérarchiques (arêtes, textures, formes) à partir de données brutes de pixels sans intervention humaine.
  • Ingénierie des caractéristiques c. Intégrations (Embeddings) : les intégrations sont une forme sophistiquée et apprise de représentation des caractéristiques courantes dans le TAL et la vision par ordinateur. Au lieu de créer manuellement des caractéristiques, un modèle apprend un vecteur dense qui capture la signification sémantique d’un élément (comme un mot ou une image). Par conséquent, les intégrations sont le résultat d’un apprentissage automatisé des caractéristiques, et non d’une ingénierie manuelle.
  • Ingénierie des caractéristiques c. Prétraitement des données : le prétraitement des données est une catégorie plus large qui comprend l’ingénierie des caractéristiques comme l’une de ses étapes clés. Il englobe également d’autres tâches essentielles comme le nettoyage des données (gestion des valeurs manquantes et des valeurs aberrantes) et la préparation des jeux de données pour l’entraînement.

Bien que les architectures modernes comme celles des modèles Ultralytics YOLO automatisent l'extraction de caractéristiques pour les tâches basées sur l'image comme la détection d'objets et la segmentation d'instance, les principes de l'ingénierie des caractéristiques restent fondamentaux. Comprendre comment représenter efficacement les données est crucial pour le débogage des modèles, l'amélioration de la qualité des données et la résolution de problèmes complexes qui impliquent la combinaison de données visuelles avec des données structurées. Des plateformes comme Ultralytics HUB fournissent des outils pour gérer l'ensemble de ce cycle de vie, de la préparation des ensembles de données au déploiement des modèles.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers