Learn the essentials of data cleaning for AI and ML. Discover how to fix errors and remove noise to optimize models like [YOLO26](https://docs.ultralytics.com/models/yolo26/) for peak performance.
La limpieza de datos es el proceso crítico de detectar y corregir (o eliminar) registros corruptos, inexactos o irrelevantes de un conjunto de registros, tabla o base de datos. En el ámbito de la inteligencia artificial (IA) y el aprendizaje automático (ML), este paso suele considerarse la parte más laboriosa, pero esencial, del flujo de trabajo. Antes de que un modelo como YOLO26 pueda aprender a reconocer objetos de manera eficaz, los datos de entrenamiento deben limpiarse de errores para evitar el fenómeno «basura entra, basura sale», en el que una entrada de mala calidad conduce a una salida poco fiable.
Los modelos de visión artificial de alto rendimiento dependen en gran medida de la calidad de los conjuntos de datos que consumen. Si un conjunto de datos contiene imágenes mal etiquetadas, duplicados o archivos dañados , el modelo tendrá dificultades para generalizar patrones, lo que provocará un sobreajuste o una precisión de inferencia deficiente. Una limpieza eficaz de los datos mejora la fiabilidad de los modelos predictivos y garantiza que el algoritmo aprenda de señales válidas en lugar de ruido.
Los profesionales emplean diversas estrategias para refinar sus conjuntos de datos utilizando herramientas como Pandas para datos tabulares o herramientas de visión especializadas.
La limpieza de datos es fundamental en diversos sectores en los que se utiliza la inteligencia artificial.
Aunque a menudo se utilizan indistintamente, la limpieza de datos es distinta del preprocesamiento de datos. La limpieza de datos se centra en corregir errores y eliminar datos «defectuosos». Por el contrario, el preprocesamiento consiste en transformar los datos limpios a un formato adecuado para el modelo, como el cambio de tamaño de las imágenes, la normalización o la aplicación de aumento de datos para aumentar la variedad.
Los flujos de trabajo modernos, como los disponibles en la Ultralytics , integran comprobaciones automatizadas para identificar imágenes corruptas o inconsistencias en las etiquetas antes de que comience el entrenamiento. A continuación se muestra un sencillo Python que muestra cómo comprobar e identificar archivos de imagen corruptos utilizando la biblioteca estándar Pillow, un paso habitual antes de introducir datos en un modelo como YOLO26.
from pathlib import Path
from PIL import Image
def verify_images(dataset_path):
"""Iterates through a directory to identify corrupt images."""
for img_path in Path(dataset_path).glob("*.jpg"):
try:
with Image.open(img_path) as img:
img.verify() # Checks file integrity
except (OSError, SyntaxError):
print(f"Corrupt file found: {img_path}")
# Run verification on your dataset
verify_images("./coco8/images/train")