Data Labeling
Aprende los fundamentos del etiquetado de datos para machine learning. Descubre tipos clave como la detección de objetos y cómo acelerar los flujos de trabajo usando Ultralytics YOLO26.
El etiquetado de datos es el proceso fundamental de identificar datos sin procesar, como imágenes, fotogramas de vídeo, texto o audio, y añadir etiquetas informativas o metadatos para proporcionar contexto. En el ámbito del machine learning (ML), los algoritmos no pueden entender intrínsecamente el mundo físico; requieren un "profesor" que los guíe. Esta guía se presenta en forma de conjuntos de datos etiquetados utilizados durante el supervised learning. Las etiquetas sirven como ground truth, representando las respuestas correctas que el modelo se esfuerza por predecir. Ya sea entrenando un clasificador simple o una arquitectura compleja como Ultralytics YOLO26, la precisión, consistencia y calidad de estas etiquetas son los determinantes principales del éxito de un modelo.
Link to this sectionEtiquetado de datos frente a anotación de datos#
Aunque los términos se usan a menudo indistintamente en conversaciones informales, existe una distinción sutil que merece la pena señalar. "Etiquetado de datos" generalmente se refiere al acto amplio de asignar una categoría o etiqueta a un dato (por ejemplo, etiquetar un correo electrónico como "spam"). Por el contrario, la data annotation suele ser más específica de la computer vision (CV), e implica la delimitación precisa de objetos mediante bounding boxes, polígonos o keypoints. Sin embargo, dentro de la mayoría de los flujos de trabajo de ML operations (MLOps), ambos términos describen la creación de training data de alta calidad.
Link to this sectionTipos principales en Computer Vision#
El método de etiquetado cambia según la tarea que el modelo deba realizar. Los tipos comunes incluyen:
- Image Classification: Asignar una única etiqueta a una imagen completa, como identificar una condición meteorológica como "nublado" o "soleado".
- Object Detection: Dibujar bounding boxes 2D alrededor de objetos distintos para enseñar al modelo qué es el objeto y dónde se encuentra.
- Instance Segmentation: Crear máscaras píxel a píxel o polygons alrededor de objetos, lo cual es esencial para determinar formas y límites precisos.
- Pose Estimation: Marcar keypoints específicos en un sujeto, como las articulaciones esqueléticas, para analizar el movimiento o la postura.
Link to this sectionAplicaciones en el mundo real#
La utilidad del etiquetado de datos se extiende a prácticamente todos los sectores que emplean IA.
-
Vehículos autónomos: Los coches autónomos dependen de conjuntos de datos masivos donde cada vehículo, peatón, señal de tráfico y marcador de carril está meticulosamente etiquetado. Estos datos etiquetados permiten al sistema de percepción navegar entornos complejos de forma segura. Las empresas de autonomous vehicle invierten mucho en etiquetado a nivel de píxel para garantizar el cumplimiento de la seguridad.
-
Agricultura de precisión: En la agricultura moderna, la AI in agriculture se utiliza para detectar enfermedades en los cultivos o monitorizar las etapas de crecimiento. Los agricultores usan modelos entrenados con imágenes etiquetadas de hojas "sanas" frente a "enfermas" para automatizar el tratamiento, reduciendo el uso de productos químicos y aumentando el rendimiento.
Link to this sectionEl flujo de trabajo de etiquetado#
Crear un conjunto de datos etiquetado es a menudo la parte que más tiempo consume en un proyecto de IA. El proceso suele implicar un enfoque de "Human-in-the-Loop" (HITL), donde anotadores humanos verifican las etiquetas para garantizar una alta precisión. Los flujos de trabajo modernos aprovechan herramientas como Ultralytics Platform, que simplifica la gestión de conjuntos de datos y permite a los equipos colaborar en las anotaciones. También se pueden emplear técnicas avanzadas como active learning, donde un modelo pre-etiqueta los datos y los humanos solo corrigen las predicciones de baja confianza, acelerando significativamente el proceso.
El siguiente ejemplo demuestra cómo usar un modelo YOLO26 pre-entrenado para generar automáticamente etiquetas (auto-etiquetado) para una nueva imagen, que luego puede ser corregida por humanos:
from ultralytics import YOLO
# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Save the detection results to a text file in standard YOLO format
# This file can now be used as a starting point for data labeling
results[0].save_txt("bus_labels.txt")





