Mixture of Agents (MoA)
Descubre cómo la mezcla de agentes (MoA) aprovecha múltiples LLM para resolver tareas complejas. Aprende a integrar Ultralytics YOLO26 como agente visual en los flujos de trabajo de MoA.
Una mezcla de agentes (MoA) es una arquitectura avanzada de inteligencia artificial que aprovecha múltiples grandes modelos de lenguaje (LLM) o agentes autónomos para resolver tareas complejas de forma colaborativa. En lugar de depender de un único modelo para generar una respuesta, un sistema MoA consulta varios modelos distintos simultáneamente. Estos agentes iniciales producen respuestas independientes, que luego se envían a un agente agregador o sintetizador. El agregador evalúa, refina y combina las diversas perspectivas en un único resultado final de alta calidad. Este enfoque colaborativo aumenta significativamente las capacidades de razonamiento y mitiga los sesgos o debilidades individuales de los modelos independientes, lo que representa un gran salto adelante en el procesamiento del lenguaje natural (NLP) y la resolución de problemas.
Link to this sectionMezcla de agentes frente a mezcla de expertos#
Aunque suenen parecidos, es crucial diferenciar la MoA del concepto relacionado de mezcla de expertos (MoE).
- Mezcla de expertos (MoE): Opera dentro de una única arquitectura de red neuronal. Utiliza un mecanismo de enrutamiento para activar solo subcapas específicas y especializadas (expertos) para cada token durante la inferencia. Esto optimiza la eficiencia computacional mientras se mantiene un alto número de parámetros.
- Mezcla de agentes (MoA): Opera a nivel de modelo o sistema. Implica agentes de IA totalmente separados, a menudo construidos sobre diferentes modelos fundacionales, que interactúan en un flujo de trabajo. MoA actúa más como un ensamble de modelos combinado con un proceso de revisión inteligente, tal y como se detalla en investigaciones recientes sobre sistemas multiagente.
Link to this sectionAplicaciones en el mundo real#
Las arquitecturas MoA destacan en entornos que requieren un razonamiento profundo, verificación de hechos y síntesis de datos diversa.
- Ingeniería de software compleja: En el desarrollo de software, un sistema MoA podría utilizar Anthropic Claude para escribir la lógica central, OpenAI GPT-4o para generar pruebas unitarias y un modelo localizado para la auditoría de seguridad. Un agente agregador final revisa el código combinado, lo prueba y genera un script refinado y libre de errores.
- Diagnóstico médico automatizado: En la IA en el sector sanitario, un flujo de trabajo de diagnóstico MoA puede desplegar agentes especializados para revisar el historial del paciente, analizar resultados de laboratorio y procesar imágenes médicas. El agente sintetizador agrega estos hallazgos para ayudar a los médicos a formar un diagnóstico completo, reduciendo drásticamente la posibilidad de error humano.
Link to this sectionIntegración de la visión en los flujos de trabajo de MoA#
Los sistemas MoA modernos son cada vez más multimodales, lo que significa que dependen de modelos de visión artificial (CV) para percibir el mundo físico antes de razonar sobre él. Por ejemplo, en la IA en la fabricación, un agente visual puede inspeccionar una señal de cámara en directo y enviar sus observaciones factuales a un agente de razonamiento.
El siguiente ejemplo de Python demuestra cómo Ultralytics YOLO26 puede funcionar como un "agente visual" dentro de un flujo de trabajo MoA, extrayendo datos contextuales para ser enviados a los LLM posteriores. Los desarrolladores pueden gestionar y ajustar sin problemas estas herramientas de visión especializadas utilizando la Ultralytics Platform.
from ultralytics import YOLO
# Initialize YOLO26 as a dedicated visual agent
visual_agent = YOLO("yolo26n.pt")
# The agent observes the environment by running inference on an image
results = visual_agent("https://ultralytics.com/images/bus.jpg")
# Extract structured data to pass to the MoA aggregator
detected_classes = [visual_agent.names[int(cls)] for cls in results[0].boxes.cls]
unique_objects = set(detected_classes)
# This text context is then sent to the reasoning agent
print(f"Visual Agent Report: I have identified {', '.join(unique_objects)} in the scene.")Al cerrar la brecha entre modelos de visión de alta capacidad construidos con marcos como PyTorch y motores cognitivos avanzados como Google Gemini, los ecosistemas MoA reflejan la colaboración humana. Se están convirtiendo rápidamente en la columna vertebral de los flujos de trabajo de RAG agente, allanando el camino para sistemas autónomos más robustos y fiables.






