Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Mezcla de agentes (MoA)

Descubre cómo Mixture of Agents (MoA) aprovecha múltiples modelos de lenguaje grande (LLM) para resolver tareas complejas. Aprende a integrar Ultralytics como agente visual en los flujos de trabajo de MoA.

Una «mezcla de agentes» (MoA) es una arquitectura avanzada de inteligencia artificial que aprovecha múltiples modelos de lenguaje a gran escala (LLM) o agentes autónomos para resolver tareas complejas de forma colaborativa. En lugar de basarse en un único modelo para generar una respuesta, un sistema MoA consulta varios modelos distintos simultáneamente. Estos agentes iniciales producen respuestas independientes, que luego se transmiten a un agente agregador o sintetizador. El agregador evalúa, refina y combina las diversas perspectivas en un único resultado final de alta calidad. Este enfoque colaborativo potencia significativamente las capacidades de razonamiento y mitiga los sesgos o debilidades individuales de los modelos independientes, lo que supone un gran avance en el procesamiento del lenguaje natural (NLP) y la resolución de problemas.

Mezcla de agentes frente a mezcla de expertos

Aunque suenen parecido, es fundamental diferenciar el MoA del concepto relacionado de «mezcla de expertos» (MoE).

  • Mezcla de expertos (MoE): Funciona dentro de una única arquitectura de red neuronal. Utiliza un mecanismo de enrutamiento para activar únicamente subcapas específicas y especializadas (expertos) para cada token durante la inferencia. Esto optimiza la eficiencia computacional al tiempo que mantiene un elevado número de parámetros.
  • Mezcla de agentes (MoA): Funciona a nivel de modelo o de sistema. Implica que agentes de IAtotalmente independientes —a menudo basados en diferentes modelos base— interactúen en una cadena de procesamiento. La MoA se comporta más bien como un conjunto de modelos combinado con un proceso de revisión inteligente, tal y como se detalla en investigaciones recientes sobre sistemas multiagente.

Aplicaciones en el mundo real

Las arquitecturas MoA destacan en entornos que requieren un razonamiento profundo, la verificación de datos y la síntesis de datos diversos.

  • Ingeniería de software compleja: En el desarrollo de software, un sistema MoA podría utilizar Anthropic para escribir la lógica principal, OpenAI GPT-4o para generar pruebas unitarias y un modelo localizado para la auditoría de seguridad. Un agente agregador final revisa el código combinado, lo prueba y genera un script optimizado y libre de errores .
  • Diagnóstico médico automatizado: En el ámbito de la IA aplicada a la asistencia sanitaria, un proceso de diagnóstico basado en el mecanismo de acción (MoA) puede utilizar agentes especializados para revisar el historial del paciente, analizar los resultados de laboratorio y procesar imágenes médicas. El agente sintetizador recopila estos hallazgos para ayudar a los médicos a formular un diagnóstico completo, lo que reduce drásticamente la probabilidad de que se produzcan errores humanos.

Integración de la visión artificial en los flujos de trabajo de MoA

Los sistemas modernos de MoA son cada vez más multimodales, lo que significa que se basan en modelos de visión artificial (CV) para percibir el mundo físico antes de razonar sobre él. Por ejemplo, en la IA aplicada a la fabricación, un agente visual puede inspeccionar las imágenes en directo de una cámara y enviar sus observaciones objetivas a un agente de razonamiento.

El siguiente Python muestra cómo Ultralytics puede actuar como un «agente visual» dentro de un flujo de trabajo MoA, extrayendo datos contextuales que se envían a los modelos de lenguaje grande (LLM) posteriores. Los desarrolladores pueden gestionar y ajustar estas herramientas de visión especializadas de forma fluida mediante la Ultralytics .

from ultralytics import YOLO

# Initialize YOLO26 as a dedicated visual agent
visual_agent = YOLO("yolo26n.pt")

# The agent observes the environment by running inference on an image
results = visual_agent("https://ultralytics.com/images/bus.jpg")

# Extract structured data to pass to the MoA aggregator
detected_classes = [visual_agent.names[int(cls)] for cls in results[0].boxes.cls]
unique_objects = set(detected_classes)

# This text context is then sent to the reasoning agent
print(f"Visual Agent Report: I have identified {', '.join(unique_objects)} in the scene.")

Al salvar la brecha entre los modelos de visión de gran capacidad creados con marcos como PyTorch y motores cognitivos avanzados como Google , los ecosistemas MoA imitan la colaboración humana. Se están convirtiendo rápidamente en la columna vertebral de los flujos de trabajo RAG agenticos, allanando el camino para sistemas autónomos más robustos y fiables.

¡Construyamos juntos el futuro de la IA!

Comience su viaje con el futuro del aprendizaje automático