Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Модели с широким диапазоном действий (LAM)

Узнайте о моделях Large Action Models (LAM) и о том, как они управляют автономными ИИ-агентами. Научитесь интегрировать Ultralytics для построения рабочих процессов «от изображения к действию» и автоматизации задач.

Модели крупномасштабных действий (LAM) представляют собой передовой класс генеративных систем искусственного интеллекта, предназначенных не только для генерации текста, но и для автономного выполнения задач и взаимодействия с цифровыми средами. В отличие от традиционных моделей, которые строго обрабатывают и генерируют текст, LAM выступают в качестве основного когнитивного ядра для ИИ-агентов, преобразуя намерения человека в конкретные, многоэтапные действия. Устраняя разрыв между пониманием естественного языка и выполнением действий в реальном мире, эти модели представляют собой значительный шаг вперед на пути к общего искусственного интеллекта (AGI) и высокоавтономных систем.

Как работают модели крупномасштабных действий

LAM-модели основываются на базовой архитектуре традиционных основополагающих моделей, но специально обучены для взаимодействия с программным обеспечением, API и веб-средами. Используя такие методы, как обучение с подкреплением и вызов функций, LAM-модель может разбить сложный запрос пользователя на логические шаги, перемещаться по графическим интерфейсам пользователя и выполнять запросы к конечным точкам API. Например, недавние разработки, такие как компьютерная система Claude 3.5Anthropic и семейство xLAM от Salesforce, демонстрируют, как эти системы могут самостоятельно нажимать кнопки, заполнять формы и управлять рабочими процессами точно так же, как это делал бы оператор-человек.

В сочетании с системами компьютерного зрения модели LAM становятся ещё более мощными. Визуальные данные могут обрабатываться с помощью высокоэффективных моделей, таких как Ultralytics , что позволяет модели LAM «видеть» своё окружение, интерпретировать визуальный контекст и запускать определённые программные действия на основе обнаруженных объектов.

Применение в реальном мире

LAM-системы меняют подход различных отраслей к автоматизации задач, переходя от пассивной помощи к активному выполнению.

  • ИИ в розничной торговле и службе поддержки клиентов: Вместо того чтобы просто отвечать на вопросы клиентов, модель LAM может самостоятельно обрабатывать возврат товаров. Если пользователь просит отменить заказ, модель может взаимодействовать с программным обеспечением компании по выставлению счетов, проверить соответствующие правила, произвести возврат средств и обновить базу данных запасов без участия человека.
  • ИИ в управленииздравоохранением: В клинических учреждениях системы LAM координируют сложные рабочие процессы. Они могут обрабатывать запросы пациентов, сверять доступность врачей, автоматически обновлять электронные медицинские карты (EHR) с помощью внутреннего медицинского программного обеспечения и завершать процесс назначения приёмов.

Автоматизация рабочих процессов машинного зрения с помощью кода

LAM часто интегрируются с моделями машинного зрения для автоматизации визуальных проверок. Приведенный ниже Python демонстрирует, как гипотетический рабочий процесс с использованием LAM может использовать ultralytics отсканировать изображение и запустить автоматическое действие по инвентаризации на основе обнаружение объектов результаты.

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for an agentic vision task
model = YOLO("yolo26n.pt")

# The LAM commands the model to scan a warehouse shelf image
results = model.predict("inventory_shelf.jpg")

# The LAM extracts actionable data to autonomously trigger a supply reorder
for result in results:
    detected_items = len(result.boxes)
    if detected_items < 10:
        print(f"Low inventory ({detected_items} items). Action triggered: Reordering supplies via API.")

Пользователи могут легко развертывать и контролировать такие интегрированные рабочие процессы, сочетающие визуальную обработку данных и выполнение действий, с помощью Ultralytics , которая обеспечивает надёжную облачную инфраструктуру для современных решений на базе искусственного интеллекта.

Различение смежных понятий

Чтобы полностью понять современную ситуацию в области искусственного интеллекта, полезно провести разграничение между LAM и другими близкими по значению терминами:

  • LAM против большой языковой модели (LLM): LLM предназначена исключительно для обработки, обобщения и генерации текста, подобно высокотехнологичному системе прогнозирования текста. LAM обладает такими же способностями понимания языка, но специально разработана для взаимодействия с внешними инструментами и выполнения цифровых действий.
  • LAM против «агентного ИИ»: «Агентный ИИ» обозначает общую систему или программную сущность, которая функционирует автономно. Large Action Model — это лежащая в основе нейронная сеть, «мозг», который наделяет агента способностью планировать и выполнять эти действия.
  • LAM против Agentic RAG: Agentic RAG направлен на автономный поиск и синтез внешней информации с целью повышения точности генерируемого ответа. LAM же ориентирован на управление системами и изменение состояний (например, бронирование авиабилетов или перемещение файлов), а не просто на поиск данных.

Давайте вместе создадим будущее искусственного интеллекта!

Начните свой путь в будущее машинного обучения