Descubre cómo Mixture of Agents (MoA) aprovecha múltiples modelos de lenguaje grande (LLM) para resolver tareas complejas. Aprende a integrar Ultralytics como agente visual en los flujos de trabajo de MoA.
Una «mezcla de agentes» (MoA) es una arquitectura avanzada de inteligencia artificial que aprovecha múltiples modelos de lenguaje a gran escala (LLM) o agentes autónomos para resolver tareas complejas de forma colaborativa. En lugar de basarse en un único modelo para generar una respuesta, un sistema MoA consulta varios modelos distintos simultáneamente. Estos agentes iniciales producen respuestas independientes, que luego se transmiten a un agente agregador o sintetizador. El agregador evalúa, refina y combina las diversas perspectivas en un único resultado final de alta calidad. Este enfoque colaborativo potencia significativamente las capacidades de razonamiento y mitiga los sesgos o debilidades individuales de los modelos independientes, lo que supone un gran avance en el procesamiento del lenguaje natural (NLP) y la resolución de problemas.
Aunque suenen parecido, es fundamental diferenciar el MoA del concepto relacionado de «mezcla de expertos» (MoE).
Las arquitecturas MoA destacan en entornos que requieren un razonamiento profundo, la verificación de datos y la síntesis de datos diversos.
Los sistemas modernos de MoA son cada vez más multimodales, lo que significa que se basan en modelos de visión artificial (CV) para percibir el mundo físico antes de razonar sobre él. Por ejemplo, en la IA aplicada a la fabricación, un agente visual puede inspeccionar las imágenes en directo de una cámara y enviar sus observaciones objetivas a un agente de razonamiento.
El siguiente Python muestra cómo Ultralytics puede actuar como un «agente visual» dentro de un flujo de trabajo MoA, extrayendo datos contextuales que se envían a los modelos de lenguaje grande (LLM) posteriores. Los desarrolladores pueden gestionar y ajustar estas herramientas de visión especializadas de forma fluida mediante la Ultralytics .
from ultralytics import YOLO
# Initialize YOLO26 as a dedicated visual agent
visual_agent = YOLO("yolo26n.pt")
# The agent observes the environment by running inference on an image
results = visual_agent("https://ultralytics.com/images/bus.jpg")
# Extract structured data to pass to the MoA aggregator
detected_classes = [visual_agent.names[int(cls)] for cls in results[0].boxes.cls]
unique_objects = set(detected_classes)
# This text context is then sent to the reasoning agent
print(f"Visual Agent Report: I have identified {', '.join(unique_objects)} in the scene.")
Al salvar la brecha entre los modelos de visión de gran capacidad creados con marcos como PyTorch y motores cognitivos avanzados como Google , los ecosistemas MoA imitan la colaboración humana. Se están convirtiendo rápidamente en la columna vertebral de los flujos de trabajo RAG agenticos, allanando el camino para sistemas autónomos más robustos y fiables.


Comience su viaje con el futuro del aprendizaje automático