Scopri come Mixture of Agents (MoA) sfrutta diversi modelli di linguaggio di grandi dimensioni (LLM) per risolvere compiti complessi. Impara a integrare Ultralytics come agente visivo nei flussi di lavoro di MoA.
Un "Mixture of Agents" (MoA) è un'architettura avanzata di intelligenza artificiale che sfrutta più modelli linguistici di grandi dimensioni (LLM) o agenti autonomi per risolvere in modo collaborativo compiti complessi. Anziché affidarsi a un unico modello per generare una risposta, un sistema MoA interroga contemporaneamente diversi modelli distinti. Questi agenti iniziali producono risposte indipendenti, che vengono quindi trasmesse a un agente aggregatore o sintetizzatore. L'aggregatore valuta, perfeziona e combina le diverse prospettive in un unico risultato finale di alta qualità. Questo approccio collaborativo potenzia significativamente le capacità di ragionamento e mitiga i pregiudizi o le debolezze individuali dei modelli autonomi, rappresentando un importante passo avanti nell' elaborazione del linguaggio naturale (NLP) e nella risoluzione dei problemi.
Sebbene i due termini sembrino simili, è fondamentale distinguere il MoA dal concetto affine di Mixture of Experts (MoE).
Le architetture MoA danno il meglio di sé in contesti che richiedono un ragionamento approfondito, la verifica dei fatti e la sintesi di dati eterogenei.
I moderni sistemi MoA sono sempre più multimodali, nel senso che si avvalgono di modelli di visione artificiale (CV) per percepire il mondo fisico prima di elaborarne le informazioni. Ad esempio, nell’ambito dell’ intelligenza artificiale applicata alla produzione, un agente visivo può ispezionare le immagini in tempo reale riprese da una telecamera e inviare le proprie osservazioni concrete a un agente di ragionamento.
Il seguente Python mostra come Ultralytics possa fungere da "agente visivo" all'interno di una pipeline MoA, estraendo dati contestuali da fornire ai modelli di linguaggio di grandi dimensioni (LLM) a valle. Gli sviluppatori possono gestire e mettere a punto senza difficoltà questi strumenti di visione specializzati utilizzando la Ultralytics .
from ultralytics import YOLO
# Initialize YOLO26 as a dedicated visual agent
visual_agent = YOLO("yolo26n.pt")
# The agent observes the environment by running inference on an image
results = visual_agent("https://ultralytics.com/images/bus.jpg")
# Extract structured data to pass to the MoA aggregator
detected_classes = [visual_agent.names[int(cls)] for cls in results[0].boxes.cls]
unique_objects = set(detected_classes)
# This text context is then sent to the reasoning agent
print(f"Visual Agent Report: I have identified {', '.join(unique_objects)} in the scene.")
Colmando il divario tra modelli di visione altamente performanti realizzati con framework come PyTorch e motori cognitivi avanzati come Google , gli ecosistemi MoA rispecchiano la collaborazione umana. Stanno diventando rapidamente la spina dorsale delle pipeline RAG agentiche, aprendo la strada a sistemi autonomi più robusti e affidabili.


Inizia il tuo viaggio con il futuro del machine learning