Glosario

Minería de datos

Descubre cómo la minería de datos transforma los datos brutos en información procesable, impulsando la IA, el ML y las aplicaciones del mundo real en la sanidad, el comercio minorista y ¡mucho más!

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La minería de datos es el proceso de descubrir patrones, correlaciones, anomalías y otras ideas valiosas ocultas en grandes conjuntos de datos. Combina técnicas de aprendizaje automático (AM), estadística y sistemas de bases de datos para transformar los datos brutos en información y conocimientos útiles. En el ámbito de la inteligencia artificial (IA), la minería de datos es un paso fundamental para comprender las características de los datos, prepararlos para el entrenamiento de modelos y descubrir las estructuras subyacentes que impulsan la toma de decisiones inteligentes. La idea central suele denominarse Descubrimiento de Conocimientos en Bases de Datos (KDD).

Técnicas clave de minería de datos

La minería de datos engloba una serie de técnicas utilizadas para explorar y analizar datos desde diferentes perspectivas. Algunos métodos comunes son:

  • Clasificación: Asignación de puntos de datos a categorías o clases predefinidas. Se utiliza en tareas como la detección de correo basura o la clasificación de imágenes.
  • Agrupación: Agrupación de puntos de datos similares sin conocimiento previo de los grupos. Útil para segmentar clientes o identificar patrones distintos en datos biológicos. Ver algoritmos como K-Means o DBSCAN.
  • Regresión: Predicción de valores numéricos continuos, como la previsión de ventas o la estimación del precio de la vivienda. Algunos ejemplos son la Regresión lineal.
  • Minería de Reglas de Asociación: Descubrimiento de relaciones o asociaciones entre elementos de grandes conjuntos de datos, muy utilizado en el análisis de la cesta de la compra para comprender los hábitos de compra.
  • Detección de anomalías: Identificación de puntos de datos o eventos que se desvían significativamente de la norma, crucial para la detección de fraudes o la identificación de valores atípicos en los datos de los sensores.
  • Reducción de la dimensionalidad: Reducir el número de variables (características) consideradas preservando la información importante, a menudo mediante técnicas como el Análisis de Componentes Principales (ACP).

El proceso de minería de datos

La minería de datos suele ser un proceso iterativo que implica varias etapas:

  1. Comprensión del negocio: Definir los objetivos y requisitos del proyecto.
  2. Comprensión de los datos: Recogida y exploración inicial de datos para familiarizarse con ellos.
  3. Preparación de datos: Esto implica la limpieza de los datos (tratar los valores que faltan, el ruido), la integración de los datos (combinar las fuentes), la selección de los datos (elegir los datos relevantes) y el preprocesamiento de los datos (formatear los datos). Aquí también puede aplicarse el aumento de datos.
  4. Modelización: Selección y aplicación de diversas técnicas de minería (como clasificación, agrupación) para identificar patrones. Esto suele implicar el uso de algoritmos de ML.
  5. Evaluación: Evaluar los patrones descubiertos en cuanto a validez, novedad, utilidad y comprensibilidad. A menudo se utilizan métricas como la precisión o el mAP.
  6. Despliegue: Utilización de los conocimientos descubiertos para la toma de decisiones, a menudo integrándolos en sistemas operativos o informando de los resultados. Esto puede implicar el despliegue de modelos.

Minería de datos frente a conceptos relacionados

Aunque está relacionada, la minería de datos difiere de otros campos centrados en los datos:

  • Análisis de datos: La analítica de datos es un término más amplio que engloba todo el proceso de inspección, limpieza, transformación y modelización de datos para apoyar la toma de decisiones. La minería de datos es un paso específico dentro de la analítica de datos centrado en descubrir patrones nuevos y ocultos. La analítica suele centrarse en las estadísticas descriptivas y las relaciones conocidas, mientras que la minería busca lo desconocido.
  • Aprendizaje Automático (AM): El ML es un campo de la IA centrado en el desarrollo de algoritmos que permiten a los sistemas aprender de los datos. La minería de datos utiliza algoritmos de ML como herramientas para descubrir patrones, pero el ML en sí es más amplio y abarca la creación y aplicación de algoritmos de aprendizaje para diversas tareas (predicción, clasificación, etc.). El objetivo de la minería de datos es principalmente el descubrimiento de conocimientos a partir de los datos.
  • Grandes Datos: Big Data se refiere a conjuntos de datos caracterizados por su gran volumen, alta velocidad y amplia variedad. Las técnicas de minería de datos son esenciales para extraer valor de los Big Data, pero los propios Big Data describen la naturaleza de los datos, no el proceso de análisis. Herramientas como Apache Spark se utilizan a menudo para la minería de Big Data.

Aplicaciones AI/ML en el mundo real

La minería de datos impulsa la innovación en muchos sectores:

  1. Comercio minorista y electrónico: Los minoristas utilizan la minería de reglas de asociación (análisis de la cesta de la compra) en los datos de las transacciones para descubrir qué productos se compran juntos con frecuencia. Esta información sirve para el diseño de la tienda, las promociones específicas y los sistemas de recomendación en línea ("Los clientes que compraron X también compraron Y"). Esto ayuda a optimizar la gestión del inventario impulsada por la IA y a personalizar la experiencia del cliente, como se ve en plataformas como Amazon.
  2. Sanidad: Las técnicas de minería de datos, como la clasificación y la agrupación, analizan los historiales de los pacientes (HCE) y las imágenes médicas para identificar patrones asociados a enfermedades, predecir los factores de riesgo de los pacientes o evaluar la eficacia de los tratamientos. Por ejemplo, la minería de datos de diagnóstico puede ayudar a la detección precoz de enfermedades como el cáncer (por ejemplo, utilizando conjuntos de datos como el de Tumores Cerebrales) o a predecir los reingresos hospitalarios, contribuyendo a mejorar la atención al paciente y la asignación de recursos en instituciones como los NIH. Explora la IA en las soluciones sanitarias para ver más ejemplos.

Minería de datos y Ultralytics

En Ultralytics, los principios de la minería de datos sustentan muchos aspectos del desarrollo y despliegue de modelos de visión por ordenador (CV) de última generación como Ultralytics YOLO. El entrenamiento de modelos robustos para tareas como la detección de objetos o la segmentación de imágenes requiere datos de alta calidad y bien comprendidos. Las técnicas de minería de datos son esenciales durante el preprocesamiento de datos y la recogida y anotación de datos para limpiar los datos, identificar los sesgos(sesgo del conjunto de datos) y seleccionar las características relevantes, mejorando en última instancia la precisión del modelo.

Además, Ultralytics HUB proporciona una plataforma en la que los usuarios pueden gestionar conjuntos de datos y entrenar modelos. Las herramientas del ecosistema HUB facilitan la exploración y comprensión de los conjuntos de datos, permitiendo a los usuarios aplicar conceptos de minería de datos para optimizar sus propios flujos de trabajo de ML y aprovechar eficazmente técnicas como el aumento de datos. Comprender los datos a través de la minería es crucial antes de emprender pasos como el ajuste de hiperparámetros. Puedes obtener más información sobre el papel del aprendizaje automático y la minería de datos en la visión por ordenador en nuestro blog. Frameworks como PyTorch y bibliotecas como OpenCV son herramientas fundamentales que se utilizan junto a estos procesos.

Leer todo