Large Action Models(LAM)과 이 모델이 자율 AI 에이전트를 어떻게 구동하는지 알아보세요. 비전-액션 워크플로우 및 작업 자동화를 위해 Ultralytics 통합하는 방법을 배워보세요.
대규모 행동 모델(LAM)은 텍스트 생성을 넘어 자율적으로 작업을 수행하고 디지털 환경과 상호작용하도록 설계된 고급 생성형 인공지능의 한 종류입니다. 단순히 텍스트를 처리하고 생성하는 기존 모델과 달리, LAM은 AI 에이전트의 핵심 인지 엔진 역할을 수행하며, 인간의 의도를 구체적이고 다단계의 행동으로 전환합니다. 자연어 이해와 실제 세계에서의 실행 사이의 간극을 해소함으로써, 이러한 모델은 범용 인공지능(AGI) 및 고도로 자율적인 시스템으로 나아가는 중요한 도약을 의미합니다.
LAM은 기존 파운데이션 모델의 기본 아키텍처를 기반으로 하지만, 소프트웨어, API 및 웹 환경과 연동되도록 특별히 훈련되었습니다. 강화 학습 및 함수 호출과 같은 기술을 활용하여, LAM은 복잡한 사용자 요청을 논리적인 단계로 분해하고, 그래픽 사용자 인터페이스를 탐색하며, API 엔드포인트를 실행할 수 있습니다. 예를 들어, Anthropic Claude 3.5 컴퓨터 활용 및 Salesforce의 xLAM 제품군의 최근 발전 사례는 이러한 시스템이 마치 인간 운영자처럼 자율적으로 버튼을 클릭하고, 양식을 작성하며, 워크플로를 관리할 수 있음을 보여줍니다.
컴퓨터 비전 시스템과 결합하면 LAM은 그 성능이 한층 더 강화됩니다. 시각적 입력은 Ultralytics 같은 고효율 모델을 통해 처리될 수 있으며, 이를 통해 LAM은 주변 환경을 “인식”하고 시각적 맥락을 해석하며, 감지한 내용에 따라 특정 프로그래밍 동작을 실행할 수 있습니다.
LAM은 산업계가 업무 자동화에 접근하는 방식을 변화시키고 있으며, 수동적인 지원에서 능동적인 실행으로 전환하고 있습니다.
LAM은 시각적 검사를 자동화하기 위해 비전 모델과 자주 통합됩니다. 다음 Python
가상의 LAM 워크플로가 어떻게 이를 활용할 수 있는지 보여줍니다. ultralytics 이미지를 스캔하고
다음에 따라 자동 재고 관리 작업을 실행하려면
물체 감지 결과.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for an agentic vision task
model = YOLO("yolo26n.pt")
# The LAM commands the model to scan a warehouse shelf image
results = model.predict("inventory_shelf.jpg")
# The LAM extracts actionable data to autonomously trigger a supply reorder
for result in results:
detected_items = len(result.boxes)
if detected_items < 10:
print(f"Low inventory ({detected_items} items). Action triggered: Reordering supplies via API.")
사용자는 최신 AI 솔루션을 위한 강력한 클라우드 인프라를 제공하는 Ultralytics 통해 이러한 유형의 통합 시각-행동 워크플로를 원활하게 배포하고 모니터링할 수 있습니다.
현대 AI의 현황을 제대로 파악하려면, LAM을 다른 밀접하게 관련된 용어들과 구분해 보는 것이 도움이 됩니다:

미래의 머신러닝 여정을 시작하세요