Glosario

Limpieza de Datos

Domine la limpieza de datos para proyectos de IA y ML. ¡Aprenda técnicas para corregir errores, mejorar la calidad de los datos e impulsar el rendimiento del modelo de forma eficaz!

La limpieza de datos es el proceso crítico de identificar y corregir registros corruptos, inexactos o irrelevantes de de un conjunto de datos para mejorar su calidad. En el ámbito del aprendizaje automático (AM), este paso es fundamental porque la fiabilidad de cualquier modelo de inteligencia artificial (IA) está directamente ligada a la integridad de la información de la que aprende. Siguiendo el adagio "basura entra, basura out", la limpieza de datos garantiza que arquitecturas avanzadas como Ultralytics YOLO11 se entrenan con datos coherentes y sin y sin errores, lo que es esencial para lograr una generalización robusta en entornos reales.

Técnicas básicas de limpieza de datos

Transformar la información bruta en datos de alta calidad implica varias tareas sistemáticas. Estas técnicas abordan errores específicos que pueden afectar negativamente al la formación de modelos.

Tratamiento de los valores perdidos: Los datos incompletos pueden sesgar los resultados. Los profesionales suelen utilizar técnicas de técnicas de imputación para rellenar los medidas estadísticas como la media o la mediana, o simplemente eliminar por completo los registros incompletos.
Eliminar duplicados: Las entradas duplicadas pueden introducir sesgo en la IA al inflar artificialmente la importancia de ciertos puntos de datos. La eliminación de estas redundancias utilizando herramientas como la biblioteca pandas garantiza un conjunto de datos equilibrado.
Gestión de valores atípicos: Los puntos de datos que se desvían significativamente de la norma se conocen como valores atípicos. Mientras que algunos representan anomalías valiosas, otros son errores que deben corregirse o eliminarse. Las técnicas de detección de anomalías ayudan a identificar estas irregularidades.
Normalización de formatos: Los formatos incoherentes (por ejemplo, mezclar "jpg" y "JPEG" o diferentes estilos de fecha) pueden confundir a los algoritmos. Establecer una norma estándar de calidad de datos garantiza que todos los datos sigan una estructura coherente.
Corrección de errores estructurales: Se trata de corregir errores tipográficos, clases mal etiquetadas o inconsistentes que podrían ser tratadas como categorías separadas por el modelo.

Aplicaciones reales de la IA

La limpieza de datos es indispensable en diversos sectores en los que la precisión es primordial.

Diagnóstico sanitario: En AI en sanidad, los modelos detect patologías en imágenes médicas. Por ejemplo, al entrenar un sistema en el conjunto de datos conjunto de datos de tumores cerebrales, la limpieza de datos implica escaneos borrosos, garantizar que los metadatos de los pacientes sean anónimos y precisos, y verificar que las anotaciones de tumores son precisas. Este rigor impide que el modelo aprenda falsos positivos, lo que es fundamental para la seguridad de los pacientes, como señala el Instituto Nacional de Biomedicina. como señala el Instituto Nacional de Bioingeniería e Imágenes Biomédicas.
Agricultura inteligente: Para IA en la agricultura, los sistemas automatizados la salud de los cultivos mediante imágenes de drones. La limpieza de datos ayuda filtrando las imágenes oscurecidas por la nubosidad o el ruido del sensor y corrigiendo errores de coordenadas GPS. Esto garantiza que seguimiento de la salud de los cultivos de la salud de los cultivos ofrezcan a los agricultores información fiable sobre el riego y el control de plagas.

Ejemplo Python : Verificación de la integridad de las imágenes

Una tarea común de limpieza de datos en visión por computador (CV) es identificar y eliminar archivos de imagen corruptos antes del entrenamiento. El siguiente fragmento muestra cómo verificar archivos de imagen utilizando la librería estándar estándar de Python .

from pathlib import Path

from PIL import Image

# Define the directory containing your dataset images
dataset_path = Path("./data/images")

# Iterate through files and verify they can be opened
for img_file in dataset_path.glob("*.jpg"):
    try:
        # Attempt to open and verify the image file
        with Image.open(img_file) as img:
            img.verify()
    except (OSError, SyntaxError):
        print(f"Corrupt file found and removed: {img_file}")
        img_file.unlink()  # Deletes the corrupt file