Entdecken Sie Large Action Models (LAM) und erfahren Sie, wie sie autonome KI-Agenten steuern. Lernen Sie, wie Sie Ultralytics für Vision-to-Action-Workflows und die Automatisierung von Aufgaben integrieren.
Large Action Models (LAM) sind eine fortschrittliche Klasse generativer künstlicher Intelligenz, die darauf ausgelegt ist, über die Textgenerierung hinauszugehen, indem sie Aufgaben autonom ausführen und mit digitalen Umgebungen interagieren. Im Gegensatz zu traditionellen Modellen, die ausschließlich Text verarbeiten und erzeugen, fungieren LAMs als kognitiver Kern für KI-Agenten und setzen menschliche Absichten in konkrete, mehrstufige Aktionen um. Indem sie die Lücke zwischen dem Verstehen natürlicher Sprache und der Ausführung in der realen Welt schließen, stellen diese Modelle einen bedeutenden Sprung in Richtung Allgemeiner Künstlicher Intelligenz (AGI) und hochautonomer Systeme dar.
LAMs bauen auf der grundlegenden Architektur traditioneller Grundmodelle auf, sind jedoch speziell darauf trainiert, mit Software, APIs und Webumgebungen zu interagieren. Mithilfe von Techniken wie verstärkendem Lernen und Funktionsaufrufen kann ein LAM eine komplexe Benutzeranfrage in logische Schritte zerlegen, durch grafische Benutzeroberflächen navigieren und API-Endpunkte ausführen. Beispielsweise zeigen aktuelle Entwicklungen wie der Computer-EinsatzAnthropic Claude 3.5 und die xLAM-Familie von Salesforce, wie diese Systeme autonom auf Schaltflächen klicken, Formulare ausfüllen und Arbeitsabläufe verwalten können, genau wie es ein menschlicher Bediener tun würde.
In Kombination mit Computer-Vision-Systemen entfalten LAMs ihr volles Potenzial. Visuelle Eingaben können von hocheffizienten Modellen wie Ultralytics verarbeitet werden, wodurch das LAM seine Umgebung „sehen“, den visuellen Kontext interpretieren und auf der Grundlage seiner Erkennungen bestimmte programmgesteuerte Aktionen auslösen kann.
LAMs verändern die Art und Weise, wie Branchen die Automatisierung von Aufgaben angehen, und vollziehen damit den Übergang von passiver Unterstützung hin zur aktiven Ausführung.
LAMs werden häufig in Bildverarbeitungsmodelle integriert, um visuelle Prüfungen zu automatisieren. Das folgende Python
zeigt, wie ein hypothetischer LAM-Workflow ultralytics um ein Bild zu scannen und eine
automatisierte Bestandsmaßnahme auf der Grundlage des
Objekterkennung Ergebnisse.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for an agentic vision task
model = YOLO("yolo26n.pt")
# The LAM commands the model to scan a warehouse shelf image
results = model.predict("inventory_shelf.jpg")
# The LAM extracts actionable data to autonomously trigger a supply reorder
for result in results:
detected_items = len(result.boxes)
if detected_items < 10:
print(f"Low inventory ({detected_items} items). Action triggered: Reordering supplies via API.")
Anwender können diese Art von integrierten visuellen Aktions-Workflows nahtlos über die Ultralytics bereitstellen und überwachen, die eine robuste Cloud-Infrastruktur für moderne KI-Lösungen bietet.
Um die moderne KI-Landschaft vollständig zu verstehen, ist es hilfreich, LAMs von anderen eng verwandten Begriffen zu unterscheiden:
Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens