Mixture of Agents(MoA)가 여러 대규모 언어 모델(LLM)을 활용하여 복잡한 작업을 해결하는 방식을 알아보세요. MoA 워크플로우에 Ultralytics 시각 에이전트로 통합하는 방법을 배워보세요.
에이전트 혼합(MoA)은 여러 개의 대규모 언어 모델(LLM) 이나 자율 에이전트를 활용하여 복잡한 과제를 협업적으로 해결하는 첨단 인공지능 아키텍처입니다. MoA 시스템은 단일 모델에 의존하여 응답을 생성하는 대신, 여러 개의 서로 다른 모델을 동시에 질의합니다. 이러한 초기 에이전트들은 독립적인 답변을 생성하며, 이 답변들은 이후 집계기 또는 합성기 에이전트로 전달됩니다. 어그리게이터는 다양한 관점을 평가하고 정제하여 단일한 고품질의 최종 결과물로 통합합니다. 이러한 협업 방식은 추론 능력을 크게 향상시키고 독립형 모델의 개별적인 편향이나 약점을 완화함으로써, 자연어 처리(NLP) 및 문제 해결 분야에서 중대한 도약을 이루고 있습니다.
비록 두 용어가 비슷하게 들리지만, MoA를 관련 개념인 전문가 혼합(Mixture of Experts, MoE)과 명확히 구분하는 것이 매우 중요하다.
MoA 아키텍처는 심층적인 추론, 사실 확인 및 다양한 데이터 통합이 필요한 환경에서 뛰어난 성능을 발휘합니다.
현대적인 MoA 시스템은 점점 더 다중 모달화되고 있으며, 이는 이러한 시스템이 물리적 세계를 인식한 후 추론을 수행하기 위해 컴퓨터 비전(CV) 모델에 의존한다는 것을 의미합니다. 예를 들어, 제조 분야의 AI에서 시각 에이전트는 실시간 카메라 영상을 검사하고, 관찰된 사실을 추론 에이전트에 전송할 수 있습니다.
다음 Python Ultralytics MoA 파이프라인 내에서 "시각 에이전트" 역할을 수행하며, 하류 LLM에 공급할 컨텍스트 데이터를 추출하는 방식을 보여줍니다. 개발자는 Ultralytics 사용하여 이러한 특화된 비전 도구를 원활하게 관리하고 미세 조정할 수 있습니다.
from ultralytics import YOLO
# Initialize YOLO26 as a dedicated visual agent
visual_agent = YOLO("yolo26n.pt")
# The agent observes the environment by running inference on an image
results = visual_agent("https://ultralytics.com/images/bus.jpg")
# Extract structured data to pass to the MoA aggregator
detected_classes = [visual_agent.names[int(cls)] for cls in results[0].boxes.cls]
unique_objects = set(detected_classes)
# This text context is then sent to the reasoning agent
print(f"Visual Agent Report: I have identified {', '.join(unique_objects)} in the scene.")
다음과 같은 프레임워크로 구축된 고성능 비전 모델 간의 격차를 해소함으로써 PyTorch 와 Google 같은 첨단 인지 엔진 간의 격차를 해소함으로써, MoA 생태계는 인간의 협업 방식을 반영합니다. 이들은 Agentic RAG 파이프라인의 중추로 빠르게 자리 잡고 있으며, 더욱 견고하고 신뢰할 수 있는 자율 시스템을 위한 길을 열어가고 있습니다.


미래의 머신러닝 여정을 시작하세요