Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Großmodelle (LAM)

Entdecken Sie Large Action Models (LAM) und erfahren Sie, wie sie autonome KI-Agenten steuern. Lernen Sie, wie Sie Ultralytics für Vision-to-Action-Workflows und die Automatisierung von Aufgaben integrieren.

Large Action Models (LAM) sind eine fortschrittliche Klasse generativer künstlicher Intelligenz, die darauf ausgelegt ist, über die Textgenerierung hinauszugehen, indem sie Aufgaben autonom ausführen und mit digitalen Umgebungen interagieren. Im Gegensatz zu traditionellen Modellen, die ausschließlich Text verarbeiten und erzeugen, fungieren LAMs als kognitiver Kern für KI-Agenten und setzen menschliche Absichten in konkrete, mehrstufige Aktionen um. Indem sie die Lücke zwischen dem Verstehen natürlicher Sprache und der Ausführung in der realen Welt schließen, stellen diese Modelle einen bedeutenden Sprung in Richtung Allgemeiner Künstlicher Intelligenz (AGI) und hochautonomer Systeme dar.

So funktionieren große Aktionsmodelle

LAMs bauen auf der grundlegenden Architektur traditioneller Grundmodelle auf, sind jedoch speziell darauf trainiert, mit Software, APIs und Webumgebungen zu interagieren. Mithilfe von Techniken wie verstärkendem Lernen und Funktionsaufrufen kann ein LAM eine komplexe Benutzeranfrage in logische Schritte zerlegen, durch grafische Benutzeroberflächen navigieren und API-Endpunkte ausführen. Beispielsweise zeigen aktuelle Entwicklungen wie der Computer-EinsatzAnthropic Claude 3.5 und die xLAM-Familie von Salesforce, wie diese Systeme autonom auf Schaltflächen klicken, Formulare ausfüllen und Arbeitsabläufe verwalten können, genau wie es ein menschlicher Bediener tun würde.

In Kombination mit Computer-Vision-Systemen entfalten LAMs ihr volles Potenzial. Visuelle Eingaben können von hocheffizienten Modellen wie Ultralytics verarbeitet werden, wodurch das LAM seine Umgebung „sehen“, den visuellen Kontext interpretieren und auf der Grundlage seiner Erkennungen bestimmte programmgesteuerte Aktionen auslösen kann.

Anwendungsfälle in der Praxis

LAMs verändern die Art und Weise, wie Branchen die Automatisierung von Aufgaben angehen, und vollziehen damit den Übergang von passiver Unterstützung hin zur aktiven Ausführung.

  • KI im Einzelhandel undim Kundensupport: Anstatt lediglich Kundenfragen zu beantworten, kann ein LAM eine Produktrückgabe selbstständig abwickeln. Wenn ein Nutzer darum bittet, eine Bestellung zu stornieren, kann das Modell die Abrechnungssoftware des Unternehmens bedienen, die Richtlinien überprüfen, die Rückerstattung vornehmen und die Bestandsdatenbank ohne menschliches Zutun aktualisieren.
  • KI in der Gesundheitsverwaltung: Im klinischen Umfeld koordinieren LAMs komplexe Arbeitsabläufe. Sie können Patientenanfragen erfassen, die Verfügbarkeit von Ärzten abgleichen, elektronische Patientenakten (EHR) über interne medizinische Software automatisch aktualisieren und die Terminplanung abschließen.

Automatisierung von Bildverarbeitungs-Workflows mit Code

LAMs werden häufig in Bildverarbeitungsmodelle integriert, um visuelle Prüfungen zu automatisieren. Das folgende Python zeigt, wie ein hypothetischer LAM-Workflow ultralytics um ein Bild zu scannen und eine automatisierte Bestandsmaßnahme auf der Grundlage des Objekterkennung Ergebnisse.

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for an agentic vision task
model = YOLO("yolo26n.pt")

# The LAM commands the model to scan a warehouse shelf image
results = model.predict("inventory_shelf.jpg")

# The LAM extracts actionable data to autonomously trigger a supply reorder
for result in results:
    detected_items = len(result.boxes)
    if detected_items < 10:
        print(f"Low inventory ({detected_items} items). Action triggered: Reordering supplies via API.")

Anwender können diese Art von integrierten visuellen Aktions-Workflows nahtlos über die Ultralytics bereitstellen und überwachen, die eine robuste Cloud-Infrastruktur für moderne KI-Lösungen bietet.

Unterscheidung von verwandten Konzepten

Um die moderne KI-Landschaft vollständig zu verstehen, ist es hilfreich, LAMs von anderen eng verwandten Begriffen zu unterscheiden:

  • LAM vs. Large Language Model (LLM): Ein LLM ist ausschließlich darauf ausgelegt, Sprache zu verarbeiten, zusammenzufassen und zu generieren – ähnlich wie ein hochentwickelter Textvorhersager. Ein LAM verfügt zwar ebenfalls über dieses Sprachverständnis, wurde jedoch speziell dafür entwickelt, mit externen Tools zu interagieren und digitale Aktionen auszuführen.
  • LAM vs. Agentic AI: „Agentic AI“ bezeichnet das übergeordnete System oder die Software-Einheit, die autonom arbeitet. Das Large Action Model ist das zugrunde liegende neuronale Netzwerk – das „Gehirn“ –, das dem Agenten die Fähigkeit verleiht, diese Aktionen zu planen und auszuführen.
  • LAM vs. Agentic RAG: Agentic RAG konzentriert sich auf das autonome Abrufen und Synthetisieren externer Informationen, um die Genauigkeit einer generierten Antwort zu verbessern. Ein LAM konzentriert sich auf die Manipulation von Systemen und die Änderung von Zuständen (wie das Buchen eines Fluges oder das Verschieben von Dateien) und nicht nur auf das Abrufen von Daten.

Lassen Sie uns gemeinsam die Zukunft der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens