Yolo 비전 선전
선전
지금 참여하기
용어집

대형 액션 모델(LAM)

Large Action Models(LAM)과 이 모델이 자율 AI 에이전트를 어떻게 구동하는지 알아보세요. 비전-액션 워크플로우 및 작업 자동화를 위해 Ultralytics 통합하는 방법을 배워보세요.

대규모 행동 모델(LAM)은 텍스트 생성을 넘어 자율적으로 작업을 수행하고 디지털 환경과 상호작용하도록 설계된 고급 생성형 인공지능의 한 종류입니다. 단순히 텍스트를 처리하고 생성하는 기존 모델과 달리, LAM은 AI 에이전트의 핵심 인지 엔진 역할을 수행하며, 인간의 의도를 구체적이고 다단계의 행동으로 전환합니다. 자연어 이해와 실제 세계에서의 실행 사이의 간극을 해소함으로써, 이러한 모델은 범용 인공지능(AGI) 및 고도로 자율적인 시스템으로 나아가는 중요한 도약을 의미합니다.

대규모 액션 모델의 작동 원리

LAM은 기존 파운데이션 모델의 기본 아키텍처를 기반으로 하지만, 소프트웨어, API 및 웹 환경과 연동되도록 특별히 훈련되었습니다. 강화 학습 및 함수 호출과 같은 기술을 활용하여, LAM은 복잡한 사용자 요청을 논리적인 단계로 분해하고, 그래픽 사용자 인터페이스를 탐색하며, API 엔드포인트를 실행할 수 있습니다. 예를 들어, Anthropic Claude 3.5 컴퓨터 활용 Salesforce의 xLAM 제품군의 최근 발전 사례는 이러한 시스템이 마치 인간 운영자처럼 자율적으로 버튼을 클릭하고, 양식을 작성하며, 워크플로를 관리할 수 있음을 보여줍니다.

컴퓨터 비전 시스템과 결합하면 LAM은 그 성능이 한층 더 강화됩니다. 시각적 입력은 Ultralytics 같은 고효율 모델을 통해 처리될 수 있으며, 이를 통해 LAM은 주변 환경을 “인식”하고 시각적 맥락을 해석하며, 감지한 내용에 따라 특정 프로그래밍 동작을 실행할 수 있습니다.

실제 애플리케이션

LAM은 산업계가 업무 자동화에 접근하는 방식을 변화시키고 있으며, 수동적인 지원에서 능동적인 실행으로 전환하고 있습니다.

  • 소매 및 고객 지원분야의 AI: LAM은 단순히 고객의 질문에 답변하는 데 그치지 않고, 제품 반품 절차를 자율적으로 처리할 수 있습니다. 사용자가 주문 취소를 요청하면, 이 모델은 사람의 개입 없이 회사의 결제 소프트웨어를 활용해 정책을 확인하고, 환불을 처리하며, 재고 데이터베이스를 업데이트할 수 있습니다.
  • 의료 행정분야의 AI: 임상 환경에서 LAM은 복잡한 업무 흐름을 조정합니다. 이 시스템은 환자의 요청을 파악하고, 의사의 진료 가능 여부를 확인하며, 내부 의료 소프트웨어를 통해 전자 건강 기록(EHR)을 자동으로 업데이트하고, 진료 예약을 확정할 수 있습니다.

코드를 활용한 비전 워크플로 자동화

LAM은 시각적 검사를 자동화하기 위해 비전 모델과 자주 통합됩니다. 다음 Python 가상의 LAM 워크플로가 어떻게 이를 활용할 수 있는지 보여줍니다. ultralytics 이미지를 스캔하고 다음에 따라 자동 재고 관리 작업을 실행하려면 물체 감지 결과.

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for an agentic vision task
model = YOLO("yolo26n.pt")

# The LAM commands the model to scan a warehouse shelf image
results = model.predict("inventory_shelf.jpg")

# The LAM extracts actionable data to autonomously trigger a supply reorder
for result in results:
    detected_items = len(result.boxes)
    if detected_items < 10:
        print(f"Low inventory ({detected_items} items). Action triggered: Reordering supplies via API.")

사용자는 최신 AI 솔루션을 위한 강력한 클라우드 인프라를 제공하는 Ultralytics 통해 이러한 유형의 통합 시각-행동 워크플로를 원활하게 배포하고 모니터링할 수 있습니다.

관련 개념 구분하기

현대 AI의 현황을 제대로 파악하려면, LAM을 다른 밀접하게 관련된 용어들과 구분해 보는 것이 도움이 됩니다:

  • LAM 대 대규모 언어 모델(LLM): LLM은 마치 고도로 발전된 텍스트 예측기처럼, 언어를 처리하고 요약하며 생성하도록 엄격히 설계되었습니다. 반면 LAM은 이러한 언어 이해 기능을 포함하되, 외부 도구와 상호작용하고 디지털 작업을 수행하도록 특별히 설계되었습니다.
  • LAM 대 에이전틱 AI: “에이전틱 AI”는 자율적으로 작동하는 포괄적인 시스템 또는 소프트웨어 개체를 뜻합니다. Large Action Model은 에이전트에게 행동을 계획하고 실행할 수 있는 능력을 부여하는 기반이 되는 신경망, 즉 “두뇌”입니다.
  • LAM 대 에이전틱 RAG: 에이전틱 RAG는 생성된 답변의 정확도를 높이기 위해 외부 정보를 자율적으로 검색하고 종합하는 데 중점을 둡니다. 반면 LAM은 단순히 데이터를 검색하는 것보다 시스템 조작 및 상태 변경(항공권 예약이나 파일 이동 등)에 중점을 둡니다.

함께 AI의 미래를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요