Large Action Models (LAM)
Изучи большие модели действий (LAM) и то, как они управляют автономными агентами ИИ. Научись интегрировать Ultralytics YOLO26 для рабочих процессов «зрение-действие» и автоматизации задач.
Large Action Models (LAM) — это передовой класс генеративного искусственного интеллекта, предназначенный для выхода за рамки простого создания текста путем автономного выполнения задач и взаимодействия с цифровыми средами. В отличие от традиционных моделей, которые строго обрабатывают и производят текст, LAM выступают в качестве основного когнитивного движка для AI agents, преобразуя намерения человека в конкретные многошаговые действия. Преодолевая разрыв между пониманием естественного языка и выполнением задач в реальном мире, эти модели представляют собой значительный скачок на пути к Artificial General Intelligence (AGI) и высокоавтономным системам.
Link to this sectionКак работают Large Action Models#
LAM опираются на фундаментальную архитектуру традиционных foundation models, но они специально обучены взаимодействовать с программным обеспечением, API и веб-средами. Используя такие методы, как reinforcement learning и вызов функций, LAM может разбить сложный запрос пользователя на логические шаги, перемещаться по графическим интерфейсам и выполнять вызовы API. Например, недавние разработки в области Anthropic's Claude 3.5 computer use и семейство Salesforce's xLAM family демонстрируют, как эти системы могут автономно нажимать кнопки, заполнять формы и управлять рабочими процессами точно так же, как это делал бы оператор-человек.
В сочетании с системами computer vision модели LAM становятся еще мощнее. Визуальные входные данные могут обрабатываться высокоэффективными моделями, такими как Ultralytics YOLO26, позволяя LAM «видеть» свое окружение, интерпретировать визуальный контекст и запускать конкретные программные действия на основе того, что она обнаруживает.
Link to this sectionРеальные приложения#
LAM меняют подход отраслей к автоматизации задач, переходя от пассивной поддержки к активному выполнению.
- AI in Retail и поддержка клиентов: Вместо того чтобы просто отвечать на вопросы клиентов, LAM может автономно оформить возврат товара. Если пользователь попросит отменить заказ, модель сможет найти нужный раздел в биллинговом ПО компании, проверить политику возврата, оформить возврат средств и обновить базу данных инвентаризации без вмешательства человека.
- AI in Healthcare и администрирование: В клинических условиях LAM координируют сложные рабочие процессы. Они могут извлекать запросы пациентов, сверять график работы врачей, автоматически обновлять электронные медицинские карты (EHR) через внутреннее медицинское ПО и завершать запись на прием.
Link to this sectionАвтоматизация рабочих процессов с помощью кода#
LAM часто интегрируются с моделями компьютерного зрения для автоматизации визуальных проверок. Следующий пример на Python демонстрирует, как гипотетический рабочий процесс LAM может использовать ultralytics для сканирования изображения и запуска автоматизированного действия по инвентаризации на основе результатов object detection.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for an agentic vision task
model = YOLO("yolo26n.pt")
# The LAM commands the model to scan a warehouse shelf image
results = model.predict("inventory_shelf.jpg")
# The LAM extracts actionable data to autonomously trigger a supply reorder
for result in results:
detected_items = len(result.boxes)
if detected_items < 10:
print(f"Low inventory ({detected_items} items). Action triggered: Reordering supplies via API.")Пользователи могут развертывать и отслеживать такие интегрированные рабочие процессы с использованием визуальных действий через Ultralytics Platform, которая предоставляет надежную облачную инфраструктуру для современных решений в области ИИ.
Link to this sectionРазграничение похожих концепций#
Чтобы полностью понять современный ландшафт ИИ, полезно различать LAM и другие близкие термины:
- LAM против Large Language Model (LLM): LLM строго предназначена для обработки, суммирования и генерации текста, подобно крайне продвинутому текстовому предикатору. LAM включает в себя такое понимание языка, но специально спроектирована для взаимодействия с внешними инструментами и выполнения цифровых действий.
- LAM против Agentic AI: «Agentic AI» описывает общую систему или программную сущность, которая действует автономно. Large Action Model — это лежащая в основе нейронная сеть, «мозг», который дает агенту способность планировать и выполнять эти действия.
- LAM против Agentic RAG: Agentic RAG фокусируется на автономном поиске и синтезе внешней информации для повышения точности сгенерированного ответа. LAM же фокусируется на манипулировании системами и изменении их состояний (например, бронирование рейса или перемещение файлов), а не просто на извлечении данных.






