Yolo 비전 선전
선전
지금 참여하기
용어집

작용 기전(MoA)

Mixture of Agents(MoA)가 여러 대규모 언어 모델(LLM)을 활용하여 복잡한 작업을 해결하는 방식을 알아보세요. MoA 워크플로우에 Ultralytics 시각 에이전트로 통합하는 방법을 배워보세요.

에이전트 혼합(MoA)은 여러 개의 대규모 언어 모델(LLM) 이나 자율 에이전트를 활용하여 복잡한 과제를 협업적으로 해결하는 첨단 인공지능 아키텍처입니다. MoA 시스템은 단일 모델에 의존하여 응답을 생성하는 대신, 여러 개의 서로 다른 모델을 동시에 질의합니다. 이러한 초기 에이전트들은 독립적인 답변을 생성하며, 이 답변들은 이후 집계기 또는 합성기 에이전트로 전달됩니다. 어그리게이터는 다양한 관점을 평가하고 정제하여 단일한 고품질의 최종 결과물로 통합합니다. 이러한 협업 방식은 추론 능력을 크게 향상시키고 독립형 모델의 개별적인 편향이나 약점을 완화함으로써, 자연어 처리(NLP) 및 문제 해결 분야에서 중대한 도약을 이루고 있습니다.

에이전트 혼합 모델 대 전문가 혼합 모델

비록 두 용어가 비슷하게 들리지만, MoA를 관련 개념인 전문가 혼합(Mixture of Experts, MoE)과 명확히 구분하는 것이 매우 중요하다.

  • 전문가 혼합(MoE): 단일 신경망 아키텍처 내에서 작동합니다. 이 방식은 라우팅 메커니즘을 사용하여 추론 시 각 토큰에 대해 특정화된 하위 레이어(전문가)만 활성화합니다. 이를 통해 많은 매개변수를 유지하면서도 계산 효율성을 최적화합니다.
  • 에이전트 혼합(MoA): 모델 또는 시스템 수준에서 작동합니다. 이는 완전히 독립적인 AI 에이전트들(대개 서로 다른 기초 모델을 기반으로 구축됨)이 파이프라인 내에서 상호작용하는 방식을 포함합니다. MoA는 최근의 다중 에이전트 시스템 연구에서 상세히 설명된 바와 같이, 모델 앙상블과 지능형 검토 과정이 결합된 형태로 작동합니다.

실제 애플리케이션

MoA 아키텍처는 심층적인 추론, 사실 확인 및 다양한 데이터 통합이 필요한 환경에서 뛰어난 성능을 발휘합니다.

  • 복합 소프트웨어 공학: 소프트웨어 개발 과정에서 MoA 시스템은 핵심 로직 작성을 위해 Anthropic , 단위 테스트 생성을 위해 OpenAI GPT-4o를, 그리고 보안 감사를 위해 현지화된 모델을 활용할 수 있습니다. 최종 통합 에이전트는 결합된 코드를 검토하고 테스트한 후, 버그가 제거된 정제된 스크립트를 출력합니다.
  • 자동화된 의료 진단: 의료 분야 AI에서 진단 메커니즘(MoA) 파이프라인은 전문 에이전트를 활용해 환자 병력을 검토하고, 검사 결과를 분석하며, 의료 영상 데이터를 처리할 수 있습니다. 종합 분석 에이전트는 이러한 결과를 종합하여 의사가 포괄적인 진단을 내릴 수 있도록 지원함으로써, 인적 오류의 가능성을 획기적으로 줄여줍니다.

MoA 워크플로우에 비전 기술 통합

현대적인 MoA 시스템은 점점 더 다중 모달화되고 있으며, 이는 이러한 시스템이 물리적 세계를 인식한 후 추론을 수행하기 위해 컴퓨터 비전(CV) 모델에 의존한다는 것을 의미합니다. 예를 들어, 제조 분야의 AI에서 시각 에이전트는 실시간 카메라 영상을 검사하고, 관찰된 사실을 추론 에이전트에 전송할 수 있습니다.

다음 Python Ultralytics MoA 파이프라인 내에서 "시각 에이전트" 역할을 수행하며, 하류 LLM에 공급할 컨텍스트 데이터를 추출하는 방식을 보여줍니다. 개발자는 Ultralytics 사용하여 이러한 특화된 비전 도구를 원활하게 관리하고 미세 조정할 수 있습니다.

from ultralytics import YOLO

# Initialize YOLO26 as a dedicated visual agent
visual_agent = YOLO("yolo26n.pt")

# The agent observes the environment by running inference on an image
results = visual_agent("https://ultralytics.com/images/bus.jpg")

# Extract structured data to pass to the MoA aggregator
detected_classes = [visual_agent.names[int(cls)] for cls in results[0].boxes.cls]
unique_objects = set(detected_classes)

# This text context is then sent to the reasoning agent
print(f"Visual Agent Report: I have identified {', '.join(unique_objects)} in the scene.")

다음과 같은 프레임워크로 구축된 고성능 비전 모델 간의 격차를 해소함으로써 PyTorchGoogle 같은 첨단 인지 엔진 간의 격차를 해소함으로써, MoA 생태계는 인간의 협업 방식을 반영합니다. 이들은 Agentic RAG 파이프라인의 중추로 빠르게 자리 잡고 있으며, 더욱 견고하고 신뢰할 수 있는 자율 시스템을 위한 길을 열어가고 있습니다.

함께 AI의 미래를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요