Large Action Models (LAM)
Esplora i Large Action Models (LAM) e come guidano gli agenti IA autonomi. Impara a integrare Ultralytics YOLO26 per flussi di lavoro da visione ad azione e automazione delle attività.
I Large Action Models (LAM) sono una classe avanzata di intelligenza artificiale generativa progettata per andare oltre la generazione di testo, eseguendo autonomamente attività e interagendo con ambienti digitali. A differenza dei modelli tradizionali che elaborano e producono rigorosamente testo, i LAM fungono da motore cognitivo centrale per gli AI agents, traducendo l'intento umano in azioni concrete e multi-step. Colmando il divario tra la comprensione del linguaggio naturale e l'esecuzione nel mondo reale, questi modelli rappresentano un salto significativo verso l'Artificial General Intelligence (AGI) e i sistemi altamente autonomi.
Link to this sectionCome funzionano i Large Action Models#
I LAM si basano sull'architettura fondamentale dei tradizionali foundation models, ma sono specificamente addestrati per interfacciarsi con software, API e ambienti web. Utilizzando tecniche come il reinforcement learning e le function calling, un LAM può suddividere una complessa richiesta dell'utente in passaggi logici, navigare nelle interfacce grafiche ed eseguire endpoint API. Ad esempio, i recenti sviluppi di Anthropic's Claude 3.5 computer use e della famiglia Salesforce's xLAM dimostrano come questi sistemi possano autonomamente cliccare su pulsanti, compilare moduli e gestire flussi di lavoro proprio come farebbe un operatore umano.
Se abbinati a sistemi di computer vision, i LAM diventano ancora più potenti. Gli input visivi possono essere elaborati da modelli altamente efficienti come Ultralytics YOLO26, consentendo al LAM di "vedere" il suo ambiente, interpretare il contesto visivo e attivare specifiche azioni programmatiche in base a ciò che rileva.
Link to this sectionApplicazioni nel mondo reale#
I LAM stanno trasformando il modo in cui le industrie approcciano l'automazione dei compiti, passando dall'assistenza passiva all'esecuzione attiva.
- AI nel Retail e Assistenza Clienti: Invece di limitarsi a rispondere alle domande dei clienti, un LAM può elaborare autonomamente un reso di un prodotto. Se un utente chiede di annullare un ordine, il modello può navigare nel software di fatturazione dell'azienda, verificare la politica, emettere il rimborso e aggiornare il database dell'inventario senza intervento umano.
- AI nell'Amministrazione Sanitaria: In contesti clinici, i LAM coordinano flussi di lavoro complessi. Possono estrarre le richieste dei pazienti, incrociare la disponibilità dei medici, aggiornare automaticamente le Cartelle Cliniche Elettroniche (EHR) tramite software medici interni e finalizzare la programmazione degli appuntamenti.
Link to this sectionAutomatizzare i flussi di lavoro di visione con il codice#
I LAM sono spesso integrati con modelli di visione per automatizzare le ispezioni visive. Il seguente esempio in Python dimostra come un ipotetico flusso di lavoro LAM potrebbe sfruttare ultralytics per scansionare un'immagine e attivare un'azione di inventario automatizzata basata sui risultati dell'object detection.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for an agentic vision task
model = YOLO("yolo26n.pt")
# The LAM commands the model to scan a warehouse shelf image
results = model.predict("inventory_shelf.jpg")
# The LAM extracts actionable data to autonomously trigger a supply reorder
for result in results:
detected_items = len(result.boxes)
if detected_items < 10:
print(f"Low inventory ({detected_items} items). Action triggered: Reordering supplies via API.")Puoi distribuire e monitorare questi tipi di flussi di lavoro integrati di visione-azione senza soluzione di continuità utilizzando la Ultralytics Platform, che fornisce un'infrastruttura cloud robusta per le moderne soluzioni di AI.
Link to this sectionDistinguere concetti correlati#
Per comprendere appieno il panorama moderno dell'AI, è utile distinguere i LAM da altri termini strettamente correlati:
- LAM vs. Large Language Model (LLM): Un LLM è progettato rigorosamente per elaborare, riassumere e generare linguaggio, proprio come un predittore di testo altamente avanzato. Un LAM incorpora questa comprensione del linguaggio, ma è specificamente progettato per interagire con strumenti esterni e completare azioni digitali.
- LAM vs. Agentic AI: "Agentic AI" descrive il sistema generale o l'entità software che opera autonomamente. Il Large Action Model è la rete neurale sottostante – il "cervello" – che conferisce all'agente la sua capacità di pianificare ed eseguire tali azioni.
- LAM vs. Agentic RAG: L'Agentic RAG si concentra sul recupero e la sintesi autonoma di informazioni esterne per migliorare l'accuratezza di una risposta generata. Un LAM si concentra sulla manipolazione dei sistemi e sul cambiamento degli stati (come prenotare un volo o spostare file) piuttosto che sul semplice recupero di dati.






