YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

大型アクションモデル(LAM)

Large Action Models(LAM)について、そしてそれが自律型AIエージェントをどのように駆動するのかを探ります。ビジョンからアクションへのワークフローやタスクの自動化を実現するために、Ultralytics 統合する方法を学びましょう。

大規模アクションモデル(LAM)は、テキスト生成にとどまらず、 自律的にタスクを実行し、デジタル環境と相互作用するように設計された、高度な生成型人工知能の一種です。 単にテキストを処理・生成する従来のモデルとは異なり、 LAMはAIエージェントの中核となる認知エンジンとして機能し、 人間の意図を具体的な 多段階の行動へと変換します。自然言語理解と実世界での実行との間のギャップを埋めることで、これらのモデルは 汎用人工知能(AGI) および高度に自律的なシステムに向けた 大きな飛躍を象徴しています。

大規模アクションモデルの仕組み

LAMは、従来の 基盤モデルの基本アーキテクチャを基盤としていますが、ソフトウェア、API、およびWeb環境と連携するように 特別に訓練されています。強化学習や関数呼び出しといった技術を活用することで、 LAMは複雑なユーザーのリクエストを論理的なステップに分解し、グラフィカルユーザーインターフェースを操作し、API エンドポイントを実行することができます。 例えば、Anthropic Claude 3.5のコンピュータ利用 Salesforce社のxLAMファミリーにおける最近の進展は、これらの システムが、人間のオペレーターと同様に、自律的にボタンをクリックし、フォームに入力し、ワークフローを管理できることを示しています。

コンピュータビジョンシステムと組み合わせることで、LAMは さらに強力な機能を発揮します。Ultralytics 高効率なモデルによって視覚入力を処理することで、 LAMは周囲の環境を「認識」し、視覚的な文脈を解釈し、検知した内容に基づいて特定のプログラム動作を 実行できるようになります。

実際のアプリケーション

LAMは、産業におけるタスクの自動化への取り組み方を変革しており、受動的な支援から能動的な実行へと移行しつつあります。

  • 小売およびカスタマーサポートにおけるAI LAMは、単に顧客の質問に答えるだけでなく、商品の返品手続きを自律的に処理することができます。ユーザーが注文の キャンセルを依頼した場合、このモデルは人間の介入なしに、企業の請求管理システムを操作し、返品ポリシーを確認し、返金処理を行い、 在庫データベースを更新することができます。
  • 医療管理におけるAI 臨床現場において、LAMは複雑なワークフローを調整します。LAMは患者の要望を抽出し、医師の 空き状況を照合し、院内医療システムを通じて電子カルテ(EHR)を自動的に更新し、 予約の確定を行います。

コードによるビジョンワークフローの自動化

LAMは、視覚検査を自動化するために、しばしばビジョンモデルと統合されます。以下のPython 、 架空のLAMワークフローがどのように活用されるかを示しています ultralytics 画像をスキャンし、 それに基づいて自動在庫管理アクションを実行する オブジェクト検出 の結果だ。

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for an agentic vision task
model = YOLO("yolo26n.pt")

# The LAM commands the model to scan a warehouse shelf image
results = model.predict("inventory_shelf.jpg")

# The LAM extracts actionable data to autonomously trigger a supply reorder
for result in results:
    detected_items = len(result.boxes)
    if detected_items < 10:
        print(f"Low inventory ({detected_items} items). Action triggered: Reordering supplies via API.")

ユーザーは、最新のAIソリューション向けに堅牢なクラウドインフラストラクチャを提供する Ultralytics を活用することで、こうした統合型ビジュアル・アクション・ワークフローをシームレスに展開・監視できます。

関連概念の区別

現代のAIの全体像を十分に把握するためには、LAMsを他の類似した用語と区別しておくことが役立ちます:

  • LAM 対 大規模言語モデル(LLM) LLMは、高度に進化したテキスト予測モデルと同様に、言語の処理、要約、生成を目的として設計されています 一方、LAMはこうした言語理解機能を備えつつも、外部ツールと連携し、デジタル上のアクションを実行するように 特別に設計されています。
  • LAM 対 エージェント型AI:「エージェント型AI」とは、自律的に動作する包括的なシステムやソフトウェアの実体を指します。 一方、Large Action Model(LAM)は、その基盤となるニューラルネットワーク、すなわち「脳」であり、 エージェントにそれらの行動を計画し実行する能力を与えるものです。
  • LAM 対Agentic RAGAgentic RAG は、生成された回答の精度を高めるために、外部情報の自律的な取得と統合に重点を置いています。 一方、LAM は、単にデータを取得するだけでなく、システムの操作や状態の変更(フライトの予約やファイルの移動など)に重点を置いています。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。