Glossaire

Ingénierie des fonctionnalités

Améliorez la précision de l'apprentissage automatique grâce à l'ingénierie des caractéristiques. Apprenez les techniques de création, de transformation et de sélection de caractéristiques percutantes.

L'ingénierie des caractéristiques est le processus crucial de sélection, de transformation et de création de caractéristiques à partir de données brutes afin de les rendre plus adaptées aux modèles d'apprentissage automatique. Il s'agit d'utiliser les connaissances du domaine et les techniques d'analyse des données pour créer des entrées qui représentent mieux le problème sous-jacent, afin d'améliorer les performances, la précision et l'interprétabilité du modèle. C'est comme préparer les meilleurs ingrédients pour une recette ; même le chef (ou le modèle) le plus compétent a du mal avec des ingrédients de mauvaise qualité(données d'entraînement). Cette étape est souvent considérée comme l'une des parties les plus critiques et les plus longues du flux de travail de ML.

Pourquoi l'ingénierie des fonctionnalités est-elle importante ?

Les données brutes collectées dans le monde réel sont rarement prêtes à être utilisées directement dans les algorithmes de ML. Elles peuvent contenir des valeurs manquantes, des incohérences, des informations non pertinentes ou se présenter dans des formats inadaptés à la consommation de modèles (comme le texte ou les données catégorielles). L'ingénierie des caractéristiques s'attaque à ces problèmes en

  • Amélioration des performances du modèle : Les caractéristiques bien conçues mettent en évidence les modèles pertinents pour le problème, ce qui facilite l'apprentissage et la généralisation des modèles.
  • Réduction de la complexité : elle peut simplifier les modèles en fournissant des données d'entrée plus informatives, réduisant parfois la nécessité d'architectures ou d'algorithmes de détection d'objets très complexes.
  • Traitement de divers types de données : Il fournit des méthodes pour convertir divers types de données (texte, images, catégories) en représentations numériques compréhensibles par les algorithmes. Pour plus d'informations, consultez les techniques de prétraitement des données.
  • Améliorer l'interprétabilité : Les caractéristiques significatives peuvent parfois faciliter la compréhension des raisons pour lesquelles un modèle fait certaines prédictions, contribuant ainsi à l'IA explicable (XAI).

Techniques courantes d'ingénierie des fonctionnalités

Plusieurs techniques relèvent de l'ingénierie des caractéristiques :

  • Imputation : Traitement des données manquantes en comblant les lacunes par des valeurs estimées (par exemple, la moyenne, la médiane ou des méthodes plus sophistiquées). Le traitement des données manquantes est une première étape courante.
  • Mise à l'échelle et normalisation : Ajustement de la gamme ou de la distribution des caractéristiques numériques (par exemple, échelle Min-Max, normalisation du score Z) afin d'éviter que les caractéristiques ayant des valeurs plus élevées ne dominent le processus d'apprentissage.
  • Encodage de variables catégorielles : Conversion de données non numériques (telles que les catégories "rouge", "vert", "bleu") en formats numériques (par exemple, encodage à chaud, encodage d'étiquettes). Voir codage des données catégorielles.
  • Création de caractéristiques (génération) : Dérivation de nouvelles caractéristiques à partir de caractéristiques existantes sur la base de la connaissance du domaine ou de l'analyse des interactions (par exemple, création de l'"âge" à partir de la "date_de_naissance", combinaison de la "taille" et du "poids" pour obtenir l'"IMC", ou extraction de caractéristiques textuelles à l'aide de la TF-IDF).
  • Binning (discrétisation) : Regroupement de données numériques continues en bacs ou intervalles discrets.
  • Transformation logarithmique : Application d'une transformation logarithmique pour traiter les distributions de données asymétriques. Pour en savoir plus sur les transformations de données, consultez la rubrique " Transformations de données ".
  • Sélection des caractéristiques : Identifier et conserver uniquement les caractéristiques les plus pertinentes, en éliminant les caractéristiques redondantes ou non pertinentes afin de simplifier le modèle et d'améliorer potentiellement les performances. Ce processus est étroitement lié à la réduction de la dimensionnalité.

Ingénierie des caractéristiques et extraction des caractéristiques

Bien qu'elles soient souvent utilisées de manière interchangeable, l'ingénierie des caractéristiques et l'extraction des caractéristiques présentent des nuances distinctes.

  • Ingénierie des caractéristiques : Un processus plus large qui comprend l' extraction de caractéristiques, mais aussi la création manuelle de nouvelles caractéristiques, la transformation des caractéristiques existantes sur la base de l'expertise du domaine et la sélection des meilleures caractéristiques. Il requiert souvent de la créativité et une compréhension approfondie des données et du problème.
  • Extraction de caractéristiques : Il s'agit plus précisément de transformer automatiquement des données brutes, souvent de haute dimension (comme des images ou des relevés bruts de capteurs), en un ensemble de caractéristiques de dimension inférieure, plus facile à gérer. Des techniques telles que l'analyse en composantes principales (ACP) ou l'apprentissage automatique des caractéristiques effectué par les couches des réseaux neuronaux convolutifs (CNN) sont des exemples d'extraction de caractéristiques.

Par essence, l'extraction de caractéristiques est souvent un outil utilisé dans le cadre du processus plus large de l'ingénierie des caractéristiques.

Applications dans le monde réel

  1. Maintenance prédictive : Dans le secteur de la fabrication, les données brutes des capteurs (vibrations, température, pression) des machines peuvent être bruyantes et de haute dimension. L'ingénierie des caractéristiques pourrait impliquer le calcul de moyennes glissantes, d'écarts types sur des fenêtres temporelles, de caractéristiques dans le domaine des fréquences (comme la FFT), ou la création de caractéristiques indiquant des pics ou des changements soudains. Ces caractéristiques d'ingénierie permettent à un modèle de ML de prédire plus facilement les défaillances potentielles d'un équipement avant qu'elles ne se produisent, comme nous l'avons vu dans l'article sur l'IA dans la fabrication.
  2. Prévision du taux d'attrition des clients : Pour prédire quels clients pourraient cesser d'utiliser un service, les données brutes comprennent les journaux d'utilisation, les données démographiques, l'historique des tickets d'assistance et les dossiers d'achat. L'ingénierie des fonctionnalités peut impliquer la création de fonctionnalités telles que la "durée moyenne de la session", le "temps écoulé depuis le dernier achat", le "nombre de tickets d'assistance au cours du dernier mois", le "rapport entre les commentaires positifs et négatifs" ou la "valeur de la durée de vie du client". Ces caractéristiques dérivées fournissent des signaux plus riches pour prédire le désabonnement par rapport aux seuls journaux bruts. Cela s'applique à l'IA dans les secteurs de la finance et de la vente au détail.

Feature Engineering et Ultralytics

Bien que les modèles avancés comme Ultralytics YOLO excellent dans des tâches telles que la détection d'objets et la segmentation d'images en apprenant automatiquement les caractéristiques visuelles pertinentes grâce à leurs architectures de réseaux neuronaux profonds(colonne vertébrale, cou, tête), les principes de l'ingénierie des caractéristiques restent d'actualité. Par exemple, le prétraitement des images d'entrée (par exemple, l'égalisation de l'histogramme pour varier l'éclairage, la réduction du bruit à l'aide de bibliothèques comme OpenCV, ou l'application d'augmentations de données spécifiques adaptées au domaine du problème) avant de les introduire dans un modèle YOLO est une forme d'ingénierie des caractéristiques qui peut améliorer la robustesse et la performance du modèle. De plus, les sorties de YOLO (comme les coordonnées de la boîte englobante, les classes d'objets, les comptages) peuvent être transformées en caractéristiques pour des tâches en aval ou combinées avec d'autres sources de données pour une analyse plus complexe, éventuellement gérée au sein de plateformes comme Ultralytics HUB qui aide à organiser les ensembles de données et les modèles. Explorez la documentation et les tutoriels d' Ultralytics pour en savoir plus sur l'utilisation des modèles, l'entraînement personnalisé et le prétraitement des données annotées. Des outils tels que Featuretools peuvent également aider à automatiser certaines parties du processus d'ingénierie des caractéristiques, en s'alignant sur les concepts de l'apprentissage automatique de la machine (AutoML). Une ingénierie des caractéristiques efficace, même avec des modèles d'apprentissage profond puissants, reste un aspect clé des pratiques MLOps réussies.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers