Explorando el Aprendizaje Ensamble: Su papel en la IA y el ML

Las innovaciones de la IA, como los motores de recomendación y los sistemas de detección de fraude, se basan en algoritmos y modelos de aprendizaje automático para realizar predicciones y tomar decisiones basadas en datos. Estos modelos pueden identificar patrones, pronosticar tendencias y ayudar a automatizar tareas complejas.

Sin embargo, un solo modelo puede tener dificultades para capturar todos los detalles en los datos del mundo real. Podría funcionar bien en algunos casos, pero no en otros, como un modelo de detección de fraudes que no detecta nuevos tipos de transacciones.

Esta limitación es algo a lo que los ingenieros de IA se enfrentan a menudo al construir e implementar modelos de aprendizaje automático. Algunos modelos se sobreajustan al aprender los datos de entrenamiento demasiado de cerca, mientras que otros se subajustan al pasar por alto patrones importantes. El aprendizaje por conjuntos es una técnica de IA que ayuda a abordar estos retos combinando múltiples modelos, conocidos como aprendices base, en un único sistema más potente.

Puede considerarlo como un equipo de expertos que trabajan juntos para resolver un problema. En este artículo, exploraremos qué es el aprendizaje ensemble, cómo funciona y dónde se puede utilizar. ¡Empecemos!

¿Qué es el aprendizaje ensamblado (ensemble learning)?

El aprendizaje ensamblado se refiere a un conjunto de técnicas que combinan múltiples modelos para resolver el mismo problema y producir un único resultado mejorado. Se puede aplicar tanto en el aprendizaje supervisado (donde los modelos aprenden de datos etiquetados) como en el aprendizaje no supervisado (donde los modelos encuentran patrones en datos no etiquetados).

En lugar de depender de un solo modelo para hacer predicciones, un ensamble utiliza varios modelos que observan los datos cada uno a su manera. Cuando se combinan sus salidas, el resultado suele ser más preciso, estable y generalizable que lo que cualquier modelo individual podría lograr por sí solo.

Puede compararlo con un panel de analistas que abordan el mismo problema. Cada analista o modelo individual interpreta los datos de forma diferente.

Uno puede centrarse en patrones, otro en anomalías y otro en el contexto. Al reunir sus perspectivas, el grupo puede tomar una decisión más equilibrada y fiable que cualquier juicio individual.

Este enfoque también ayuda a abordar dos de los mayores desafíos del aprendizaje automático: el sesgo y la varianza. Un modelo con un alto sesgo es demasiado simple y pasa por alto patrones importantes, mientras que uno con una alta varianza es demasiado sensible y se ajusta demasiado a los datos de entrenamiento. Al combinar modelos, el aprendizaje ensamblado encuentra un equilibrio entre los dos, mejorando el rendimiento del sistema con datos nuevos e invisibles.

Comprender cómo funciona el aprendizaje ensamblado

Cada modelo en un conjunto se conoce como un alumno base o modelo base. Estos pueden ser del mismo tipo de algoritmo o una mezcla de diferentes algoritmos, dependiendo de la técnica de conjunto que se esté utilizando.

Estos son algunos ejemplos comunes de los diferentes modelos utilizados en el aprendizaje conjunto:

Árboles de decisión: Estos modelos dividen los datos en ramas basándose en los valores de las características para tomar decisiones. Por ejemplo, en problemas de clasificación como predecir si un cliente comprará un producto, consideran factores como la edad, los ingresos y el historial de navegación.
‍
Redes neuronales: Inspiradas en cómo el cerebro humano procesa la información, forman la arquitectura básica detrás de la mayoría de los modelos modernos de IA y aprendizaje automático.
‍
Máquinas de vectores de soporte (SVM): Estos algoritmos clasifican los datos encontrando un límite de decisión óptimo, llamado hiperplano, que maximiza el margen entre diferentes clases. En otras palabras, la SVM dibuja la mejor línea posible que separa los grupos, dejando el mayor espacio posible entre ellos. Por ejemplo, se puede utilizar para determinar si un correo electrónico es spam o no, basándose en patrones como la frecuencia y la estructura de las palabras.
‍
Modelos de regresión logística: Estiman probabilidades y se utilizan a menudo para tareas de clasificación binaria. Un ejemplo típico es predecir si una transacción es fraudulenta o legítima.

Un ensamblaje de modelos combinado se denomina generalmente "aprendiz fuerte" porque integra los puntos fuertes de los aprendices base (también denominados modelos débiles) al tiempo que minimiza sus puntos débiles. Lo hace combinando las predicciones de cada modelo de forma estructurada, utilizando la votación por mayoría para las tareas de clasificación o el promedio ponderado para las tareas de regresión, con el fin de producir un resultado final más preciso.

Fig. 1. Un ejemplo de aprendizaje ensamblado (Fuente)

‍

¿Cuándo utilizar el aprendizaje ensamblado?

Antes de profundizar en varias técnicas de aprendizaje ensamblado, retrocedamos un poco y comprendamos cuándo se debe utilizar este tipo de enfoque en un proyecto de aprendizaje automático o IA.

El aprendizaje ensamblado es más impactante cuando un solo modelo tiene dificultades para hacer predicciones precisas o consistentes. También se puede utilizar en situaciones donde los datos son complejos, ruidosos o impredecibles.

Estos son algunos casos comunes en los que los métodos de conjunto son particularmente eficaces:

Baja precisión del modelo: Cuando las predicciones de un modelo no son lo suficientemente fiables, la combinación de varios modelos puede mejorar significativamente la precisión y el rendimiento. Por ejemplo, en la calificación crediticia o el diagnóstico médico, incluso pequeñas mejoras en la precisión de la predicción pueden marcar una gran diferencia.
‍
Datos ruidosos o inconsistentes: Si un conjunto de datos contiene valores atípicos, errores o fluctuaciones aleatorias, el aprendizaje conjunto ayuda a suavizar esas irregularidades promediando o votando entre múltiples modelos.
‍
Necesidad de robustez: Los modelos de conjunto son menos sensibles a los pequeños cambios en los datos, lo que los hace más estables y confiables para entornos de producción donde las entradas del mundo real pueden variar.
‍
Tareas de predicción complejas: En tareas como el reconocimiento de imágenes, la detección de fraudes o la previsión de series temporales, los ensembles capturan una gama más amplia de patrones y relaciones de lo que un solo modelo podría hacer por sí solo.

También es más sencillo de entrenar, más fácil de interpretar y más rápido de mantener. Antes de utilizar un ensamble, es importante sopesar el beneficio de una mayor precisión frente al tiempo adicional, la potencia de cálculo y la complejidad que requiere.

Una visión general de las técnicas de aprendizaje ensamblado

A continuación, veamos las principales formas en que el aprendizaje ensamblado puede aplicarse en proyectos de aprendizaje automático. Existen varias técnicas básicas que se utilizan para combinar modelos, cada una de las cuales mejora el rendimiento a su manera. Los métodos de ensamblaje más comunes son el bagging, el boosting, el stacking y el blending.

Bagging

Bagging, abreviatura de bootstrap aggregating, es un método de aprendizaje ensemble que ayuda a mejorar la estabilidad y la precisión del modelo al entrenar múltiples versiones del mismo modelo en diferentes partes de los datos.

Cada subconjunto se crea utilizando un proceso llamado muestreo bootstrap, donde los puntos de datos se seleccionan aleatoriamente con reemplazo. Esto significa que después de elegir un punto de datos, se vuelve a colocar en el grupo antes de elegir el siguiente, por lo que el mismo punto puede aparecer más de una vez, mientras que otros pueden quedar fuera. Esta aleatoriedad asegura que cada modelo se entrene en una versión ligeramente diferente del conjunto de datos.

Durante la inferencia, todos los modelos entrenados se ejecutan en paralelo para realizar predicciones sobre datos nuevos y no vistos. Cada modelo produce su propia salida basada en lo que aprendió, y estas predicciones individuales se combinan para formar el resultado final.

Para tareas de regresión, como predecir los precios de las viviendas o las previsiones de ventas, esto generalmente significa promediar las salidas de todos los modelos para obtener una estimación más suave. Para tareas de clasificación, como identificar si una transacción es fraudulenta o no, el conjunto a menudo toma una votación mayoritaria para decidir la clase final.

Bagging en acción: El algoritmo Random Forest

Un buen ejemplo de dónde funciona bien el bagging es con los árboles de decisión, que pueden sobreajustarse fácilmente cuando se entrenan con un solo conjunto de datos. Al entrenar muchos árboles con muestras ligeramente diferentes y combinar sus resultados, el bagging reduce el sobreajuste y mejora la fiabilidad.

Consideremos el algoritmo de Bosque Aleatorio. Es un conjunto de árboles de decisión, donde cada árbol se entrena con un subconjunto aleatorio del conjunto de datos de entrenamiento, así como con un subconjunto aleatorio de características.

Esta aleatoriedad de la función ayuda a asegurar que los árboles estén menos correlacionados y que el modelo general sea más estable y preciso. Se puede utilizar un algoritmo de Random Forest para clasificar imágenes, detectar fraudes, predecir la pérdida de clientes, pronosticar ventas o estimar precios de propiedades.

Fig. 2. Una mirada al algoritmo de Random Forest (Fuente)

‍

Boosting (Potenciación)

El boosting es otra técnica de aprendizaje ensemble que se centra en mejorar los weak learners (modelos) entrenándolos secuencialmente, uno tras otro, en lugar de en paralelo. El concepto central del boosting es que cada nuevo modelo aprende de los errores de los anteriores, mejorando gradualmente el rendimiento general del modelo.

A diferencia del bagging, que reduce la varianza promediando modelos independientes, el boosting reduce el sesgo haciendo que cada nuevo modelo preste más atención a los casos difíciles con los que los modelos anteriores tuvieron problemas.

Dado que los modelos de boosting se entrenan secuencialmente, la forma en que se combinan sus predicciones al final difiere ligeramente de otros métodos de conjunto. Cada modelo contribuye a la predicción final en proporción a su rendimiento durante el entrenamiento, y los modelos más precisos reciben mayor peso.

Para las tareas de regresión, el resultado final suele ser una suma ponderada de todas las predicciones del modelo. Para las tareas de clasificación, el algoritmo combina los votos ponderados de los modelos para decidir la clase final. Este enfoque ayuda a que el boosting cree un modelo general sólido, dando más peso a los modelos que son más precisos, mientras que sigue aprendiendo de los demás.

Estos son algunos tipos comunes de algoritmos de boosting:

AdaBoost (Adaptive Boosting): Este método comienza entrenando un modelo simple, como un pequeño árbol de decisión, y luego aumenta el peso de los puntos de datos que fueron clasificados incorrectamente. Estos pesos hacen que el siguiente modelo se centre más en los ejemplos difíciles. A lo largo de múltiples iteraciones, los modelos se construyen unos sobre otros, y sus predicciones combinadas forman un resultado más fuerte y preciso. Por ejemplo, AdaBoost puede mejorar la detección de spam o la precisión del reconocimiento facial.
‍
Gradient Boosting: En lugar de reponderar las muestras, Gradient Boosting entrena cada nuevo modelo para corregir los errores residuales, las diferencias entre los valores reales y los predichos, cometidos por los modelos anteriores. Este enfoque iterativo lo hace eficaz tanto para tareas de regresión como de clasificación, como la previsión de ventas y la calificación crediticia.
‍
XGBoost (Extreme Gradient Boosting): Esta versión avanzada del "gradient boosting" mejora tanto la velocidad como la precisión. Utiliza la regularización, que penaliza ligeramente los modelos demasiado complejos durante el entrenamiento para que se centren en patrones significativos en lugar de memorizar datos. Aunque los modelos todavía se entrenan secuencialmente, XGBoost acelera el proceso mediante el uso de la paralelización durante la construcción del árbol. Puede evaluar muchos puntos de división posibles al mismo tiempo a través de diferentes núcleos de la CPU. Esto hace que el entrenamiento sea mucho más rápido, especialmente en grandes conjuntos de datos, manteniendo un alto rendimiento predictivo.

Fig. 3. Ejemplo de un clasificador basado en árbol de decisión (DTB) entrenado con un enfoque de boosting para la predicción del riesgo de diabetes. (Fuente)

‍

Apilamiento

El apilamiento, también llamado generalización apilada, va un paso más allá al utilizar las predicciones de varios modelos como entrada para un modelo final conocido como meta-aprendiz. Se puede pensar en ello como tener un grupo de expertos que comparten su opinión, y luego un tomador de decisiones final aprende a ponderar esas opiniones para tomar la mejor decisión posible.

Por ejemplo, un modelo podría ser excelente para detectar fraudes, mientras que otro es mejor para predecir la pérdida de clientes. El meta-aprendedor estudia cómo se desempeña cada uno y utiliza sus fortalezas en conjunto para hacer una predicción final más precisa.

Blending (Mezcla)

El blending funciona de forma similar al stacking, ya que también combina las predicciones de varios modelos para tomar una decisión final, pero adopta un enfoque más sencillo y rápido. En lugar de utilizar la validación cruzada (un método que divide los datos en varias partes y las rota entre el entrenamiento y las pruebas para que el modelo sea más fiable), como hace el stacking, el blending reserva una pequeña porción de los datos, llamada conjunto de retención (holdout set).

Los modelos base se entrenan con los datos restantes y luego hacen predicciones sobre el conjunto de retención, que no han visto antes. Esto produce dos piezas clave de información: las respuestas reales, o etiquetas verdaderas, y las predicciones hechas por cada modelo base.

Estas predicciones se pasan entonces a otro modelo llamado modelo de mezcla o meta modelo. Este modelo final estudia la precisión de las predicciones de cada modelo base y aprende a combinarlas de la mejor manera posible.

Dado que el blending se basa en una sola división de entrenamiento y prueba en lugar de repetir el proceso varias veces, se ejecuta más rápido y es más fácil de configurar. La contrapartida es que tiene un poco menos de información para aprender, lo que puede hacerlo un poco menos preciso.

Evaluación de algoritmos de conjunto

Una parte importante del aprendizaje ensamblado es evaluar el rendimiento de un modelo con datos que no ha visto antes. No importa lo avanzada que sea una técnica, debe probarse para asegurar que puede generalizar, lo que significa que debe hacer predicciones precisas sobre ejemplos nuevos del mundo real en lugar de simplemente memorizar los datos de entrenamiento.

Estas son algunas métricas de rendimiento comunes que se utilizan para evaluar los modelos de IA:

Precisión: Esta métrica mide la proporción de predicciones correctas del total de predicciones realizadas por el modelo. Ofrece una visión general rápida del rendimiento general.
‍
Precisión: Indica cuántas de las muestras predichas como positivas son realmente positivas. Una alta precisión significa que el modelo comete pocos errores de falsos positivos.
‍
Recall (exhaustividad): Esta medida se centra en cuántos de los casos positivos reales fueron identificados correctamente por el modelo. Es especialmente importante en campos como la atención médica, donde no detectar un caso positivo, como el diagnóstico de una enfermedad, puede tener graves consecuencias.

Aplicaciones en el mundo real del aprendizaje ensamblado

Hasta ahora, hemos explorado cómo funciona el aprendizaje ensamblado y las técnicas que lo respaldan. Ahora veamos dónde está teniendo un impacto este enfoque.

Estas son algunas áreas clave donde se aplica comúnmente el aprendizaje ensamblado:

Análisis de datos y previsión: En los negocios y el análisis, los modelos de conjunto ayudan a las organizaciones a hacer mejores predicciones combinando las perspectivas de varios modelos. Esto conduce a previsiones de ventas más precisas, a una planificación de la demanda más inteligente y a una comprensión más clara del comportamiento del cliente.
‍
Clasificación binaria: Tareas como la detección de spam, la prevención del fraude y el diagnóstico médico a menudo requieren distinguir entre dos posibles resultados. Los modelos Ensemble ayudan a reducir los falsos positivos y los falsos negativos, lo cual es especialmente crucial en áreas como la ciberseguridad y la atención médica.
‍
Problemas de regresión: Al predecir valores continuos como los precios de la vivienda, los ingresos por ventas o el riesgo crediticio, los métodos de conjunto capturan relaciones complejas dentro de los datos. Esto da como resultado predicciones más precisas que respaldan mejores decisiones financieras y operativas.

Yendo más allá de los datos estructurados con el aprendizaje ensamblado

Si bien el aprendizaje ensamblado se utiliza más comúnmente con datos estructurados o tabulares, como hojas de cálculo que contienen información numérica o categórica, también se puede aplicar a datos no estructurados como texto, imágenes, audio y vídeo.

Estos tipos de datos son más complejos y difíciles de interpretar para los modelos, pero los métodos de conjunto ayudan a mejorar la precisión y la fiabilidad. Por ejemplo, en visión artificial, los conjuntos pueden mejorar tareas como la clasificación de imágenes y la detección de objetos.

Al combinar las predicciones de múltiples modelos de visión, como las redes neuronales convolucionales (CNN), el sistema puede reconocer objetos con mayor precisión y gestionar las variaciones de iluminación, ángulo o fondo que podrían confundir a un solo modelo.

Un vistazo al ensamblaje de modelos YOLOv5 de Ultralytics

Un ejemplo interesante del uso del aprendizaje ensamblado en la visión artificial es cuando un ingeniero combina múltiples modelos de detección de objetos para mejorar la precisión. Imagine un ingeniero que trabaja en un sistema de monitorización de seguridad para una obra de construcción, donde la iluminación, los ángulos y los tamaños de los objetos cambian constantemente.

Un solo modelo podría pasar por alto a un trabajador en las sombras o confundir maquinaria en movimiento. Al utilizar un conjunto de modelos, cada uno con diferentes puntos fuertes, el sistema se vuelve más fiable y menos propenso a cometer esos errores.

En particular, los modelos como Ultralytics YOLOv5 van de la mano con el ensamblaje de modelos. Los ingenieros pueden combinar diferentes variantes de YOLOv5, como YOLOv5x y YOLOv5l6, para realizar predicciones conjuntas. Cada modelo analiza la misma imagen y produce sus propias detecciones, que luego se promedian para generar un resultado final más sólido y preciso.

Fig. 4. Detección de objetos en una imagen usando YOLOv5. (Fuente)

‍

Pros y contras del aprendizaje ensamblado

Estos son algunos de los beneficios clave de usar el aprendizaje ensamblado:

Resistencia a los datos ruidosos: Los conjuntos se ven menos afectados por los valores atípicos o el ruido aleatorio en el conjunto de datos, ya que se basan en múltiples modelos.
‍
Mejor generalización: Los ensambles reducen el sobreajuste, lo que ayuda a los modelos a funcionar bien con datos no vistos en lugar de simplemente memorizar ejemplos de entrenamiento.
‍
Flexibilidad entre algoritmos: Puede combinar diferentes tipos de modelos, como árboles de decisión, redes neuronales y modelos lineales, para aprovechar sus fortalezas únicas.

Si bien el aprendizaje ensamblado aporta varias ventajas, también hay algunos retos que hay que tener en cuenta. Aquí hay algunos factores a tener en cuenta:

Mayor coste computacional: Entrenar y mantener múltiples modelos requiere más memoria, potencia de procesamiento y tiempo que un solo modelo.
‍
Reducción de la interpretabilidad: Dado que la salida final proviene de la combinación de múltiples modelos, puede ser difícil entender por qué se tomó una determinada decisión. Sin embargo, esto depende de los modelos utilizados, ya que cuando se utilizan modelos interpretables, como los árboles de decisión o las máquinas de vectores de soporte, suele ser más fácil entender los resultados.
‍
Consideraciones de diseño del ensamble: La construcción de un ensamble implica elegir la combinación correcta de modelos y asegurarse de que funcionen bien juntos. Sin embargo, también puede ser más sencillo en algunos casos porque no es necesario ajustar los hiperparámetros de cada modelo individual.

Conclusiones clave

El aprendizaje ensamblado muestra cómo la combinación de múltiples modelos puede hacer que los sistemas de IA sean más precisos y fiables. Ayuda a reducir los errores y a mejorar el rendimiento en diferentes tipos de tareas. A medida que el aprendizaje automático y la IA continúan creciendo, técnicas como esta están impulsando una adopción más amplia y soluciones de IA más prácticas y de alto rendimiento.

Únase a nuestra creciente comunidad y repositorio de GitHub para obtener más información sobre la Visión Artificial. Explore nuestras páginas de soluciones para obtener información sobre las aplicaciones de la visión artificial en la agricultura y la IA en la logística. Consulte nuestras opciones de licencia para comenzar hoy mismo con su propio modelo de visión artificial.

Explorando el aprendizaje ensamblado y su papel en la IA y el ML

¿Qué es el aprendizaje ensamblado (ensemble learning)?

Comprender cómo funciona el aprendizaje ensamblado

¿Cuándo utilizar el aprendizaje ensamblado?