Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Limpieza de Datos

Learn the essentials of data cleaning for AI and ML. Discover how to fix errors and remove noise to optimize models like [YOLO26](https://docs.ultralytics.com/models/yolo26/) for peak performance.

La limpieza de datos es el proceso crítico de detectar y corregir (o eliminar) registros corruptos, inexactos o irrelevantes de un conjunto de registros, tabla o base de datos. En el ámbito de la inteligencia artificial (IA) y el aprendizaje automático (ML), este paso suele considerarse la parte más laboriosa, pero esencial, del flujo de trabajo. Antes de que un modelo como YOLO26 pueda aprender a reconocer objetos de manera eficaz, los datos de entrenamiento deben limpiarse de errores para evitar el fenómeno «basura entra, basura sale», en el que una entrada de mala calidad conduce a una salida poco fiable.

La importancia de la integridad de los datos en la IA

Los modelos de visión artificial de alto rendimiento dependen en gran medida de la calidad de los conjuntos de datos que consumen. Si un conjunto de datos contiene imágenes mal etiquetadas, duplicados o archivos dañados , el modelo tendrá dificultades para generalizar patrones, lo que provocará un sobreajuste o una precisión de inferencia deficiente. Una limpieza eficaz de los datos mejora la fiabilidad de los modelos predictivos y garantiza que el algoritmo aprenda de señales válidas en lugar de ruido.

Técnicas comunes de limpieza de datos

Los profesionales emplean diversas estrategias para refinar sus conjuntos de datos utilizando herramientas como Pandas para datos tabulares o herramientas de visión especializadas.

  • Manejo de valores faltantes: Esto implica eliminar registros con datos faltantes o utilizar técnicas de imputación para completar los vacíos basándose en promedios estadísticos o vecinos más cercanos.
  • Eliminación de duplicados: Las imágenes duplicadas en un conjunto de entrenamiento pueden sesgar inadvertidamente el modelo. Eliminarlas garantiza que el modelo no memorice ejemplos específicos, lo que ayuda a mitigar el sesgo del conjunto de datos.
  • Detección de valores atípicos: identificar y gestionar las anomalías o los valores atípicos que se desvían significativamente de la norma es crucial, ya que pueden sesgar el análisis estadístico y los pesos del modelo.
  • Reparación estructural: Esto incluye corregir errores tipográficos en las etiquetas de clase (por ejemplo, corregir «Car» frente a «car») para garantizar la coherencia de las clases.

Aplicaciones en el mundo real

La limpieza de datos es fundamental en diversos sectores en los que se utiliza la inteligencia artificial.

  • Análisis de imágenes médicas: en las aplicaciones de IA para el cuidado de la salud, los conjuntos de datos suelen contener exploraciones con artefactos, metadatos incorrectos de los pacientes o ruido de fondo irrelevante. La limpieza de estos datos garantiza que los modelos de análisis de imágenes médicas se centren únicamente en los marcadores biológicos relevantes para el diagnóstico.
  • Gestión de inventario minorista: para la IA en el comercio minorista, los conjuntos de datos de productos pueden contener artículos obsoletos o imágenes con relaciones de aspecto incorrectas. La limpieza de estos conjuntos de datos garantiza que los modelos de detección de objetos puedan identificar con precisión los niveles de existencias y reducir los falsos positivos en un entorno real.

Distinguir entre limpieza de datos y preprocesamiento

Aunque a menudo se utilizan indistintamente, la limpieza de datos es distinta del preprocesamiento de datos. La limpieza de datos se centra en corregir errores y eliminar datos «defectuosos». Por el contrario, el preprocesamiento consiste en transformar los datos limpios a un formato adecuado para el modelo, como el cambio de tamaño de las imágenes, la normalización o la aplicación de aumento de datos para aumentar la variedad.

Automatización de los controles de calidad

Los flujos de trabajo modernos, como los disponibles en la Ultralytics , integran comprobaciones automatizadas para identificar imágenes corruptas o inconsistencias en las etiquetas antes de que comience el entrenamiento. A continuación se muestra un sencillo Python que muestra cómo comprobar e identificar archivos de imagen corruptos utilizando la biblioteca estándar Pillow, un paso habitual antes de introducir datos en un modelo como YOLO26.

from pathlib import Path

from PIL import Image


def verify_images(dataset_path):
    """Iterates through a directory to identify corrupt images."""
    for img_path in Path(dataset_path).glob("*.jpg"):
        try:
            with Image.open(img_path) as img:
                img.verify()  # Checks file integrity
        except (OSError, SyntaxError):
            print(f"Corrupt file found: {img_path}")


# Run verification on your dataset
verify_images("./coco8/images/train")

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora