Large Action Models (LAM)
거대 행동 모델(LAM)과 이것이 어떻게 자율 AI 에이전트를 구동하는지 탐색해 보십시오. 비전-행동 워크플로우 및 작업 자동화를 위해 Ultralytics YOLO26을 통합하는 방법을 배우십시오.
Large Action Models (LAM)은 텍스트 생성을 넘어 자율적으로 작업을 수행하고 디지털 환경과 상호작용하도록 설계된 고급 생성형 인공지능 분야입니다. 텍스트를 처리하고 생성하기만 하는 기존 모델과 달리, LAM은 AI 에이전트의 핵심 인지 엔진 역할을 하며 인간의 의도를 구체적인 다단계 작업으로 변환합니다. 자연어 이해와 실제 실행 사이의 격차를 해소함으로써, 이 모델들은 인공일반지능(AGI) 및 고도로 자율적인 시스템을 향한 중대한 도약을 의미합니다.
Link to this sectionLarge Action Models의 작동 원리#
LAM은 기존 파운데이션 모델의 기본 아키텍처를 기반으로 구축되지만, 소프트웨어, API 및 웹 환경과 인터페이스하도록 특별히 학습되었습니다. 강화 학습 및 함수 호출과 같은 기술을 사용하여 LAM은 복잡한 사용자 요청을 논리적인 단계로 나누고, 그래픽 사용자 인터페이스를 탐색하며, API 엔드포인트를 실행할 수 있습니다. 예를 들어, Anthropic의 Claude 3.5 computer use 및 Salesforce의 xLAM 제품군의 최근 개발 사례는 이러한 시스템이 인간 운영자와 마찬가지로 자율적으로 버튼을 클릭하고, 양식을 작성하며, 워크플로를 관리할 수 있음을 보여줍니다.
컴퓨터 비전 시스템과 결합하면 LAM은 더욱 강력해집니다. Ultralytics YOLO26과 같이 매우 효율적인 모델을 통해 시각적 입력을 처리할 수 있으며, 이를 통해 LAM은 환경을 '보고', 시각적 맥락을 해석하며, 감지한 내용을 바탕으로 특정 프로그래밍 작업을 트리거할 수 있습니다.
Link to this section실제 애플리케이션 사례#
LAM은 산업계가 작업 자동화에 접근하는 방식을 바꾸고 있으며, 수동적인 지원에서 능동적인 실행으로 나아가고 있습니다.
- 리테일 AI 및 고객 지원: LAM은 단순히 고객의 질문에 답하는 대신 자율적으로 제품 반품을 처리할 수 있습니다. 사용자가 주문 취소를 요청하면 모델이 기업의 결제 소프트웨어를 탐색하고, 정책을 확인하며, 환불을 처리하고, 인간의 개입 없이 재고 데이터베이스를 업데이트할 수 있습니다.
- 의료 AI 관리: 임상 환경에서 LAM은 복잡한 워크플로를 조정합니다. 환자의 요청을 추출하고, 의사의 가용 시간을 교차 확인하며, 내부 의료 소프트웨어를 통해 전자의무기록(EHR)을 자동으로 업데이트하고, 진료 예약을 마무리할 수 있습니다.
Link to this section코드를 이용한 비전 워크플로 자동화#
LAM은 비전 모델과 자주 통합되어 시각적 검사를 자동화합니다. 다음 Python 예제는 가상의 LAM 워크플로가 ultralytics를 활용하여 이미지를 스캔하고 객체 탐지 결과를 기반으로 자동화된 재고 작업을 트리거하는 방법을 보여줍니다.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for an agentic vision task
model = YOLO("yolo26n.pt")
# The LAM commands the model to scan a warehouse shelf image
results = model.predict("inventory_shelf.jpg")
# The LAM extracts actionable data to autonomously trigger a supply reorder
for result in results:
detected_items = len(result.boxes)
if detected_items < 10:
print(f"Low inventory ({detected_items} items). Action triggered: Reordering supplies via API.")사용자는 최신 AI 솔루션을 위한 강력한 클라우드 인프라를 제공하는 Ultralytics Platform을 사용하여 이러한 유형의 통합 비전-액션 워크플로를 원활하게 배포하고 모니터링할 수 있습니다.
Link to this section관련 개념 구분#
현대 AI 환경을 완전히 파악하기 위해 LAM을 다른 관련 용어와 구분하는 것이 도움이 됩니다.
- LAM vs. 거대 언어 모델(LLM): LLM은 고도로 발전된 텍스트 예측기처럼 언어를 처리, 요약 및 생성하도록 엄격하게 설계되었습니다. LAM은 이러한 언어 이해 능력을 통합하지만, 외부 도구와 상호작용하고 디지털 작업을 완료하도록 특별히 설계되었습니다.
- LAM vs. 에이전트 AI(Agentic AI): "에이전트 AI"는 자율적으로 작동하는 전체적인 시스템 또는 소프트웨어 엔티티를 설명합니다. Large Action Model은 그 에이전트에게 계획하고 행동을 수행할 수 있는 능력을 부여하는 기초 신경망, 즉 '두뇌'입니다.
- LAM vs. 에이전트 RAG(Agentic RAG): 에이전트 RAG는 생성된 답변의 정확도를 높이기 위해 외부 정보를 자율적으로 검색하고 합성하는 데 중점을 둡니다. LAM은 단순히 데이터를 검색하는 것이 아니라 시스템을 조작하고 상태를 변경하는(예: 항공편 예약이나 파일 이동 등) 작업에 중점을 둡니다.






