Conjunto
Aumente la precisión predictiva con métodos ensemble. Descubra cómo la combinación de varios modelos mejora el rendimiento en la detección de objetos, la PNL, etc.
Los métodos de ensemble son una potente técnica de aprendizaje automático en la que se combinan varios modelos individuales para producir un único modelo de predicción superior. La idea central es que, al agregar la "sabiduría" de varios modelos, la predicción final será más precisa, estable y robusta que la predicción de cualquier modelo individual. Este planteamiento es análogo al de pedir consejo a un grupo diverso de expertos; la decisión colectiva suele ser mejor que la opinión de cualquier experto individual. Estas técnicas son muy eficaces para reducir el sobreajuste y mejorar la generalización de los modelos en datos desconocidos.
Cómo funcionan los conjuntos
El aprendizaje por conjuntos implica dos pasos principales: entrenar un grupo de modelos base diversos y luego combinar sus predicciones. La diversidad entre los modelos base es crucial; si todos los modelos cometen los mismos errores, el conjunto no proporcionará ninguna mejora. Esta diversidad puede lograrse utilizando diferentes algoritmos, entrenando en diferentes subconjuntos de los datos de entrenamiento o utilizando diferentes hiperparámetros.
Una vez entrenados los modelos, se agregan sus predicciones. Para las tareas de clasificación, esto se suele hacer mediante un mecanismo de votación (por ejemplo, gana la clase con más votos). Para las tareas de regresión, las predicciones se suelen promediar. El modelo combinado resultante suele mostrar un mejor rendimiento, un concepto explorado en el Teorema del Jurado de Condorcet.
Técnicas comunes de conjunto
Existen varios métodos populares para crear conjuntos eficaces:
- Bagging (agregación Bootstrap): Esta técnica consiste en entrenar múltiples modelos (por ejemplo, árboles de decisión) en diferentes subconjuntos aleatorios de los datos de entrenamiento. El algoritmo Random Forest es una aplicación muy conocida de esta técnica.
- Refuerzo: Los modelos se entrenan secuencialmente, y cada nuevo modelo se centra en corregir los errores cometidos por sus predecesores. Entre los principales algoritmos de boosting se encuentran AdaBoost, Gradient Boosting, XGBoost y LightGBM.
- Apilamiento (generalización apilada): Este método consiste en entrenar varios modelos diferentes (aprendices base) y utilizar otro modelo de aprendizaje automático (un metaaprendiz) para aprender a combinar mejor sus predicciones.
- Votaciones y promedios: Son los métodos más sencillos, en los que la predicción final es el voto mayoritario (voto duro) o la media de las probabilidades predichas (voto suave) de todos los modelos. Los modelos YOLO de Ultralytics admiten una forma de promediación con su función de ensamblaje de modelos.
Aplicaciones reales
Los métodos ensemble se utilizan ampliamente en aplicaciones críticas en las que es primordial una gran precisión:
- Análisis de imágenes médicas: En tareas como la detección de tumores, puede utilizarse un conjunto de redes neuronales convolucionales (CNN ). Cada CNN puede entrenarse con subconjuntos diferentes de exploraciones médicas o con arquitecturas distintas. Combinando sus resultados, el sistema puede lograr un diagnóstico más fiable y preciso, reduciendo el riesgo de falsos negativos o positivos en aplicaciones como las imágenes médicas.
- Sistemas autónomos: Para los vehículos autónomos, la detección fiable de objetos es una cuestión de seguridad. Un conjunto podría combinar diferentes modelos, como YOLOv8 y YOLO11, o modelos entrenados con diferentes estrategias de aumento de datos. Este enfoque mitiga el riesgo de que un solo modelo no detecte a un peatón o un obstáculo, lo que da lugar a un sistema de percepción más robusto.
Conjunto frente a conceptos afines
Resulta útil distinguir los métodos ensemble de otros conceptos relacionados:
- Conjunto Modelo: Este término se utiliza a menudo indistintamente con "Ensemble". Mientras que "Ensemble" se refiere a la técnica general, un Ensemble de Modelos se refiere típicamente a la implementación práctica de combinar instancias específicas de modelos entrenados. El principio subyacente es el mismo.
- Mezcla de expertos (ME): Aunque ambos utilizan varios modelos, sus mecanismos difieren. Un conjunto combina las predicciones de todos los modelos para cada entrada. En cambio, un modelo de Mezcla de Expertos utiliza una red de compuertas para seleccionar dinámicamente el modelo "experto" más apropiado para una entrada específica, utilizando sólo un subconjunto de modelos para cada predicción.
Aunque los ensembles añaden complejidad y sobrecarga computacional a la formación y despliegue de modelos, las ganancias de rendimiento a menudo justifican el coste. Plataformas como Ultralytics HUB pueden agilizar la gestión de múltiples modelos creados con marcos como PyTorch o TensorFlow, simplificando la creación de potentes conjuntos.