Conjunto de modelos
Aumente la precisión y la solidez de los modelos con conjuntos de modelos. Explore técnicas como bagging, boosting, stacking y aplicaciones reales.
Un conjunto de modelos es una técnica de aprendizaje automático que combina las predicciones de dos o más modelos individuales para producir una única predicción final, a menudo superior. El principio básico se basa en la idea de la "sabiduría de la multitud": al agregar las "opiniones" de varios modelos distintos, el conjunto puede compensar los errores o sesgos individuales de cualquier modelo individual, lo que conduce a una mayor precisión, una mayor solidez y un menor riesgo de sobreajuste. Este enfoque es la piedra angular del ML de alto rendimiento y se utiliza con frecuencia para ganar concursos de ciencia de datos.
Cómo funcionan los conjuntos modelo
La eficacia de un conjunto de modelos depende de la diversidad de los modelos que lo componen. Si todos los modelos cometen los mismos errores, su combinación no aporta ninguna ventaja. Por lo tanto, se fomenta la diversidad entrenando los modelos con diferentes subconjuntos de datos de entrenamiento, utilizando diferentes algoritmos o inicializando los modelos con diferentes parámetros.
Entre las técnicas habituales para crear y combinar conjuntos se incluyen:
- Bagging (Bootstrap Aggregating): Consiste en entrenar múltiples instancias del mismo modelo en diferentes subconjuntos aleatorios de los datos de entrenamiento. La predicción final suele ser una media o un voto mayoritario de todas las predicciones del modelo. Random Forest es un ejemplo clásico de ensemble basado en bagging.
- Refuerzo: Los modelos se entrenan secuencialmente, y cada nuevo modelo se centra en corregir los errores cometidos por sus predecesores. El resultado es un modelo compuesto potente y muy preciso. Entre los algoritmos de refuerzo más conocidos están AdaBoost y Gradient Boosting, con implementaciones como XGBoost y LightGBM.
- Apilamiento: Este método consiste en entrenar varios modelos diferentes (por ejemplo, una red neuronal, una máquina de vectores de soporte y un árbol de decisión) y utilizar otro modelo, denominado metaaprendizaje, para combinar sus predicciones y producir el resultado final.
Conceptos relacionados
Resulta útil distinguir un conjunto de modelos de los términos relacionados:
- Métodos de ensamblaje: Se trata de la categoría teórica más amplia de técnicas (como bagging y boosting) utilizadas en el aprendizaje automático. Un "conjunto de modelos" es el artefacto concreto -la colección específica de modelos entrenados- creado mediante la aplicación de un método de conjunto.
- Mezcla de expertos: A diferencia de un conjunto típico que combina los resultados de todos los modelos, un ME utiliza una red de compuertas para seleccionar dinámicamente el modelo "experto" más adecuado para una entrada determinada. Un MoE elige a un experto, mientras que un ensemble los consulta a todos.
Aplicaciones reales
Los conjuntos de modelos se utilizan ampliamente en diversos ámbitos para lograr un rendimiento de vanguardia.
- Detección de objetos en visión por ordenador: En sistemas críticos para la seguridad, como los vehículos autónomos, o para tareas de alto valor, como la vigilancia de la seguridad, los conjuntos pueden mejorar la fiabilidad. Por ejemplo, un ensemble puede combinar diferentes modelos de detección de objetos, como diferentes versiones de Ultralytics YOLO, como YOLOv8 y YOLOv10, o modelos entrenados con diferentes estrategias de aumento de datos. La guía de ensamblaje de modelos de YOLOv5 demuestra cómo esto puede mejorar la precisión de la detección. Incluso técnicas como el aumento del tiempo de prueba (TTA ) pueden considerarse una forma de ensamblaje, ya que promedian las predicciones de varias versiones aumentadas de una imagen.
- Diagnóstico médico: Los conjuntos son cruciales en el análisis de imágenes médicas para tareas como el diagnóstico de enfermedades a partir de radiografías, resonancias magnéticas o muestras de patología. Una CNN puede destacar en la detección de ciertas anomalías, mientras que otra es mejor en otras diferentes. Al ensamblar sus predicciones, una herramienta de diagnóstico puede lograr una mayor precisión y fiabilidad, lo que es fundamental para aplicaciones como la detección de tumores.
Aunque potentes, los conjuntos aumentan la complejidad y las necesidades computacionales tanto para la formación de modelos como para su despliegue. La gestión de múltiples modelos requiere más recursos, una cuidadosa ingeniería y sólidas prácticas de MLOps. Sin embargo, las significativas ganancias de rendimiento a menudo justifican estos costes en aplicaciones críticas. Plataformas como Ultralytics HUB pueden simplificar la gestión de múltiples modelos construidos utilizando marcos como PyTorch o TensorFlow.