Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Exploration de données (Data Mining)

Découvrez comment l'exploration de données transforme les données brutes en informations exploitables, alimentant l'IA, le ML et les applications concrètes dans les domaines de la santé, du commerce de détail, et bien plus encore !

Le data mining est le processus qui consiste à explorer et à analyser de grands blocs d'informations afin d'en extraire des modèles et des tendances significatifs . Il se situe à la croisée des statistiques, de l' apprentissage automatique (ML) et des systèmes de bases de données, et constitue une étape cruciale dans le processus de « découverte de connaissances dans les bases de données » (KDD). En passant au crible des quantités massives de données brutes, l'exploration de données transforme le bruit non structuré en informations structurées et exploitables que les entreprises et les chercheurs utilisent pour prendre des décisions éclairées.

Dans le contexte de l'intelligence artificielle (IA) moderne , l'exploration de données est souvent le précurseur de la modélisation prédictive. Avant qu'un algorithme puisse prédire l'avenir, il doit comprendre le passé. Par exemple, dans la vision par ordinateur (CV), les techniques d'exploration peuvent analyser des milliers d'images pour identifier des caractéristiques communes, telles que les contours, les textures ou les formes, qui définissent une classe d'objets spécifique, créant ainsi la base pour la formation d'ensembles de données robustes .

Techniques clés en matière d'exploration de données

L'exploration de données s'appuie sur plusieurs méthodologies sophistiquées pour mettre au jour des relations cachées au sein des données. Ces techniques permettent aux analystes d'aller au-delà de la simple synthèse des données pour parvenir à des découvertes approfondies.

  • Classification: cela implique de classer les éléments de données dans des groupes ou des classes prédéfinis. Dans l'IA visuelle, cela reflète le processus d' entraînement d'un modèle à distinguer une « voiture » d'un « piéton » sur la base d'exemples historiques étiquetés .
  • Analyse de regroupement: contrairement à la classification, le regroupement classe les points de données en fonction de leurs similitudes, sans étiquettes prédéfinies. Cela est essentiel pour l' apprentissage non supervisé, où un algorithme peut regrouper automatiquement les comportements d'achat des clients ou les textures d'images similaires. Vous pouvez en savoir plus sur les méthodes de regroupement dans la documentation de Scikit-learn.
  • Détection des anomalies: cette technique identifie les points de données qui s'écartent considérablement de la norme. Elle est cruciale pour la détection des fraudes dans le domaine financier ou pour la recherche de défauts de fabrication sur une chaîne de production.
  • Apprentissage des règles d'association : cette méthode permet de découvrir les relations entre les variables d'une base de données. Un exemple classique est l'analyse du panier de la ménagère, que les détaillants utilisent pour déterminer que les clients qui achètent du pain sont également susceptibles d'acheter du beurre.
  • Analyse de régression: utilisée pour prédire une valeur numérique continue à partir d'autres variables, la régression est essentielle pour prévoir les tendances des ventes ou estimer la distance d'un objet dans les tâches d'estimation de la profondeur.

Applications concrètes

L'utilité de l'exploration de données s'étend à pratiquement tous les secteurs d'activité, stimulant l'efficacité et l'innovation en révélant des modèles qui sont invisibles à l'œil nu.

Fabrication et contrôle qualité

Dans le domaine de la fabrication intelligente, l'exploration de données est utilisée pour analyser les données des capteurs des machines. En appliquant des algorithmes de maintenance prédictive, les usines peuvent prévoir les pannes d'équipement avant qu'elles ne se produisent. De plus, les modèles de vision par ordinateur tels que YOLO26 peuvent générer des journaux d'inférence qui sont exploités pour identifier les types de défauts récurrents, aidant ainsi les ingénieurs à ajuster les processus de production afin de réduire les déchets.

Diagnostic médical

L'exploration de données transforme les soins de santé en analysant les dossiers médicaux électroniques et l'imagerie médicale. Les chercheurs exploitent les données génomiques pour trouver des associations entre des séquences génétiques spécifiques et des maladies. En radiologie, l'exploration de grands ensembles de données de radiographies permet d'identifier les premiers indicateurs de maladies telles que la pneumonie ou les tumeurs, ce qui facilite l' analyse des images médicales.

Distinguer les termes apparentés

Pour bien comprendre le data mining, il est utile de le distinguer des concepts étroitement liés dans le domaine de la science des données .

  • Exploration de données vs apprentissage automatique: Bien qu'ils se recoupent, l'exploration de données se concentre sur la découverte de modèles existants, tandis que l'apprentissage automatique se concentre sur l'utilisation de ces modèles pour apprendre et prédire les résultats futurs. L'exploration est souvent la phase exploratoire qui informe l'ingénierie des caractéristiques pour les modèles d'apprentissage automatique.
  • Exploration de données vs visualisation de données: La visualisation est la représentation graphique des données (tableaux, graphiques). L'exploration est le processus analytique qui génère les informations à visualiser. Des outils tels que Tableau permettent souvent de visualiser les résultats de l'exploration de données.
  • Exploration de données vs entreposage de données: L'entreposage implique le stockage et la gestion centralisés de grands volumes de données provenant de multiples sources. L'exploration est le processus effectué sur ces données entreposées afin d'en extraire de la valeur.

L'exploration de données en pratique avec Ultralytics

Dans un flux de travail de vision par ordinateur, le « minage » intervient souvent lors de l'analyse des résultats d'inférence afin de trouver des détections de grande valeur ou des cas limites difficiles. Ce processus est rationalisé à l'aide de Ultralytics , qui facilite la gestion et l'analyse des ensembles de données.

L'exemple suivant montre comment « exploiter » une collection d'images pour trouver des détections spécifiques hautement fiables à l'aide d'un modèle YOLO26. Cela imite le processus de filtrage de vastes flux de données pour trouver des événements pertinents.

from ultralytics import YOLO

# Load the YOLO26n model
model = YOLO("yolo26n.pt")

# List of image paths (simulating a dataset)
image_files = ["image1.jpg", "image2.jpg", "image3.jpg"]

# Run inference on the batch
results = model(image_files)

# 'Mine' the results for high-confidence 'person' detections (class 0)
high_conf_people = []
for result in results:
    # Filter boxes where class is 0 (person) and confidence > 0.8
    detections = result.boxes[(result.boxes.cls == 0) & (result.boxes.conf > 0.8)]
    if len(detections) > 0:
        high_conf_people.append(result.path)

print(f"Found high-confidence people in: {high_conf_people}")

Cet extrait illustre une opération d'exploration de données de base : le filtrage de prédictions brutes afin d'extraire un sous-ensemble d'intérêt (images contenant des personnes identifiées avec un haut degré de certitude), qui pourrait ensuite être utilisé pour l' apprentissage actif afin d'améliorer encore les performances du modèle .

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant