Descubra como o Mixture of Agents (MoA) utiliza vários modelos de linguagem de grande escala (LLMs) para resolver tarefas complexas. Aprenda a integrar Ultralytics como agente visual nos fluxos de trabalho do MoA.
Uma Mistura de Agentes (MoA) é uma arquitetura avançada de inteligência artificial que utiliza múltiplos modelos de linguagem de grande escala (LLMs) ou agentes autónomos para resolver tarefas complexas de forma colaborativa. Em vez de depender de um único modelo para gerar uma resposta, um sistema MoA consulta vários modelos distintos simultaneamente. Estes agentes iniciais produzem respostas independentes, que são depois transmitidas a um agente agregador ou sintetizador. O agregador avalia, refina e combina as diversas perspetivas numa única saída final de alta qualidade. Esta abordagem colaborativa aumenta significativamente as capacidades de raciocínio e mitiga os preconceitos ou fraquezas individuais dos modelos autónomos, representando um grande salto em frente no processamento de linguagem natural (NLP) e na resolução de problemas.
Embora pareçam semelhantes, é fundamental distinguir o MoA do conceito relacionado de Mistura de Especialistas (MoE).
As arquiteturas MoA destacam-se em ambientes que exigem raciocínio aprofundado, verificação de factos e síntese de dados diversificados.
Os sistemas modernos de MoA são cada vez mais multimodais, o que significa que dependem de modelos de visão computacional (CV) para perceber o mundo físico antes de procederem ao seu raciocínio. Por exemplo, na IA aplicada à indústria transformadora, um agente visual pode inspecionar imagens de câmara em tempo real e enviar as suas observações factuais a um agente de raciocínio.
Python a seguir demonstra como Ultralytics pode funcionar como um «agente visual» dentro de um pipeline MoA, extraindo dados contextuais para serem fornecidos a LLMs a jusante. Os programadores podem facilmente gerir e ajustar estas ferramentas de visão especializadas utilizando a Ultralytics .
from ultralytics import YOLO
# Initialize YOLO26 as a dedicated visual agent
visual_agent = YOLO("yolo26n.pt")
# The agent observes the environment by running inference on an image
results = visual_agent("https://ultralytics.com/images/bus.jpg")
# Extract structured data to pass to the MoA aggregator
detected_classes = [visual_agent.names[int(cls)] for cls in results[0].boxes.cls]
unique_objects = set(detected_classes)
# This text context is then sent to the reasoning agent
print(f"Visual Agent Report: I have identified {', '.join(unique_objects)} in the scene.")
Ao colmatar a lacuna entre modelos de visão altamente capazes, criados com frameworks como PyTorch e motores cognitivos avançados como Google , os ecossistemas MoA refletem a colaboração humana. Estão rapidamente a tornar-se a espinha dorsal dos pipelines Agentic RAG, abrindo caminho para sistemas autónomos mais robustos e fiáveis.

Comece sua jornada com o futuro do aprendizado de máquina