Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Aprendizaje Activo

Descubra el aprendizaje activo, un método de machine learning rentable que aumenta la precisión con menos etiquetas. ¡Aprenda cómo transforma el entrenamiento de la IA!

El aprendizaje activo es un enfoque dinámico en aprendizaje automático (AM) diseñado para optimizar proceso de formación eligiendo selectivamente los puntos de datos más informativos para la anotación. En el aprendizaje supervisado estándar, un modelo se alimenta pasivamente de un gran conjunto de datos preetiquetados, lo que puede resultar ineficaz y costoso si los datos incluyen ejemplos redundantes o poco informativos. si los datos incluyen ejemplos redundantes o poco informativos. El aprendizaje activo cambia este paradigma al permitir que el modelo consulta interactiva a una fuente de información -a menudo un experto humano u "oráculo"- para solicitar etiquetas para casos específicos o ambiguos, específicas y ambiguas. Esta estrategia específica reduce significativamente la cantidad de datos de entrenamiento necesarios para precisión, lo que la hace ideal para proyectos con presupuestos limitados o plazos estrictos.

El ciclo de aprendizaje activo

El proceso de aprendizaje activo funciona como un ciclo iterativo, a menudo descrito como un flujo de trabajo humano. Este ciclo Este ciclo garantiza que el esfuerzo humano se centre únicamente en los datos que más contribuyen a la mejora del modelo. El flujo de trabajo típico implica:

  1. Inicialización: Un modelo, como Ultralytics YOLO11sobre un pequeño conjunto de datos inicialmente etiquetado.
  2. Consulta: El modelo realiza predicciones sobre un gran conjunto de datos sin etiquetar. Mediante una estrategia de consulta identifica las muestras en las que su confianza es baja o en las que las predicciones son inciertas.
  3. Anotación: Estas muestras "inciertas" de alta prioridad se envían a un anotador humano para que las etiquete. etiquetado.
  4. Actualización: Las muestras recién etiquetadas se añaden al conjunto de entrenamiento y se repite el proceso de entrenamiento del modelo para perfeccionar el algoritmo. para perfeccionar el algoritmo.

La eficacia de este método depende en gran medida de la estrategia de muestreo. El muestreo de incertidumbre es la técnica más común, en la que el algoritmo selecciona las instancias más cercanas a su límite de decisión. En sobre estas estrategias en varios estudios sobre aprendizaje activo.

Ejemplo Python : Muestreo de incertidumbre con YOLO11

El siguiente fragmento de código muestra cómo implementar un bucle básico de muestreo de incertidumbre. Carga un modelo, predice sobre las imágenes, e identifica aquellas con detecciones de baja confianza, marcándolas para su revisión manual.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on a list or directory of unlabeled images
results = model.predict(["image1.jpg", "image2.jpg"])

# Identify images where the model is uncertain
uncertain_samples = []
for result in results:
    # Check if detections exist and if the maximum confidence is below a threshold
    if result.boxes.conf.numel() > 0 and result.boxes.conf.max() < 0.6:
        uncertain_samples.append(result.path)
        print(f"Flagging {result.path} for manual labeling.")

print(f"Total uncertain images found: {len(uncertain_samples)}")

Aplicaciones en el mundo real

El aprendizaje activo es especialmente valioso en etiquetado de datos es costoso o requiere especializados.

  • Análisis de imágenes médicas: En el ámbito sanitario, la obtención de datos etiquetados para tareas como la como la detección de tumores cerebrales radiólogos altamente cualificados. En lugar de etiquetar miles de exploraciones rutinarias, los sistemas de aprendizaje activo pueden identificar anomalías raras o ambiguas para su revisión por expertos. La investigación en segmentación de imágenes biomédicas ha demostrado que esta puede reducir drásticamente los esfuerzos de anotación manteniendo la precisión diagnóstica.
  • Vehículos autónomos: Los coches autónomos recogen cantidades ingentes de datos de vídeo. Etiquetar cada fotograma es poco práctico. El aprendizaje activo ayuda a los ingenieros a encontrar "casos extremos" -como condiciones meteorológicas inusuales o peatones disfrazados- que el modelo actual de detección de objetos no puede detectar. modelo actual de detección de objetos classify. Al dar prioridad a estas situaciones difíciles, empresas como NVIDIA mejoran la seguridad y robustez de sus sistemas de percepción.

Distinción de conceptos afines

Aunque el aprendizaje activo implica el uso de datos no etiquetados, es distinto de otros paradigmas de aprendizaje automático:

  • Aprendizaje semisupervisado: Este método utiliza datos etiquetados y no etiquetados durante el entrenamiento, pero normalmente lo hace de forma pasiva. A menudo se basa de datos para propagar las etiquetas, mientras que el aprendizaje activo busca explícitamente nueva información. información.
  • Aprendizaje autosupervisado: En este enfoque, el modelo crea sus propias señales de supervisión a partir de la estructura de datos (por ejemplo, predecir una parte faltante de una imagen). No requiere interacción humana para generar etiquetas para la parte no etiquetada, un área de investigación clave en laboratorios como Google AI. en laboratorios como Google AI.
  • Aprendizaje por refuerzo: Consiste en que un agente aprenda a tomar decisiones recibiendo recompensas o penalizaciones de un entorno. A diferencia de aprendizaje activo, que busca etiquetas estáticas para los puntos de datos, el aprendizaje por refuerzo se centra en optimizar una secuencia de acciones.

Integración en MLOps

La aplicación del aprendizaje activo requiere un sólido sistema de operaciones de aprendizaje automático (MLOps) para gestionar el flujo de datos entre el modelo, el conjunto de datos y la interfaz de anotación. Las herramientas de gestión y de datos son esenciales para saber qué muestras se han consultado. Aunque las bibliotecas de uso general como scikit-learn ofrecen cierta utilidad, los flujos de trabajo de visión por ordenador a menudo requieren una integración personalizada con los conjuntos de datos de imágenes para visualizar y anotar las imágenes seleccionadas. de datos de imágenes para visualizar y anotar las imágenes seleccionadas de forma eficaz. Los usuarios avanzados pueden explorar el repositorio repositorio GitHub deUltralytics para ver cómo pueden estructurarse pueden estructurarse para alimentar estos bucles de curación de datos.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora