Large Action Models (LAM)
Explora os Grandes Modelos de Ação (LAM) e como eles impulsionam agentes de IA autónomos. Aprende a integrar o Ultralytics YOLO26 para fluxos de trabalho de visão para ação e automação de tarefas.
Large Action Models (LAM) são uma classe avançada de inteligência artificial generativa projetada para ir além da geração de texto, executando tarefas de forma autônoma e interagindo com ambientes digitais. Ao contrário dos modelos tradicionais que processam e produzem texto estritamente, os LAMs atuam como o motor cognitivo central para AI agents, traduzindo a intenção humana em ações concretas de várias etapas. Ao preencher a lacuna entre a compreensão da linguagem natural e a execução no mundo real, esses modelos representam um salto significativo em direção à Artificial General Intelligence (AGI) e a sistemas altamente autônomos.
Link to this sectionComo funcionam os Large Action Models#
Os LAMs baseiam-se na arquitetura fundamental dos foundation models tradicionais, mas são treinados especificamente para interagir com software, APIs e ambientes web. Usando técnicas como reinforcement learning e chamadas de função (function calling), um LAM pode dividir uma solicitação complexa do usuário em etapas lógicas, navegar em interfaces gráficas de usuário e executar endpoints de API. Por exemplo, desenvolvimentos recentes do Anthropic's Claude 3.5 computer use e da família Salesforce's xLAM demonstram como esses sistemas podem clicar em botões, preencher formulários e gerenciar fluxos de trabalho de forma autônoma, exatamente como um operador humano faria.
Quando combinados com sistemas de computer vision, os LAMs tornam-se ainda mais poderosos. Entradas visuais podem ser processadas por modelos altamente eficientes como o Ultralytics YOLO26, permitindo que o LAM "veja" seu ambiente, interprete o contexto visual e acione ações programáticas específicas com base no que detecta.
Link to this sectionAplicações no Mundo Real#
Os LAMs estão transformando a forma como as indústrias abordam a automação de tarefas, passando da assistência passiva para a execução ativa.
- AI in Retail e Suporte ao Cliente: Em vez de apenas responder às perguntas dos clientes, um LAM pode processar uma devolução de produto de forma autônoma. Se um usuário solicitar o cancelamento de um pedido, o modelo pode navegar pelo software de faturamento da empresa, verificar a política, emitir o reembolso e atualizar o banco de dados de estoque sem intervenção humana.
- AI in Healthcare Administração: Em ambientes clínicos, os LAMs coordenam fluxos de trabalho complexos. Eles podem extrair solicitações de pacientes, cruzar a disponibilidade dos médicos, atualizar automaticamente os Electronic Health Records (EHR) por meio de software médico interno e finalizar o agendamento de consultas.
Link to this sectionAutomatizando fluxos de trabalho de visão com código#
Os LAMs são frequentemente integrados a modelos de visão para automatizar inspeções visuais. O exemplo em Python a seguir demonstra como um fluxo de trabalho hipotético de LAM pode aproveitar o ultralytics para digitalizar uma imagem e acionar uma ação automática de inventário com base nos resultados de object detection.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for an agentic vision task
model = YOLO("yolo26n.pt")
# The LAM commands the model to scan a warehouse shelf image
results = model.predict("inventory_shelf.jpg")
# The LAM extracts actionable data to autonomously trigger a supply reorder
for result in results:
detected_items = len(result.boxes)
if detected_items < 10:
print(f"Low inventory ({detected_items} items). Action triggered: Reordering supplies via API.")Os usuários podem implantar e monitorar esses tipos de fluxos de trabalho integrados de visão e ação perfeitamente usando a Ultralytics Platform, que fornece infraestrutura de nuvem robusta para soluções modernas de IA.
Link to this sectionDistinguindo Conceitos Relacionados#
Para entender completamente o panorama moderno da IA, é útil distinguir os LAMs de outros termos intimamente relacionados:
- LAM vs. Large Language Model (LLM): Um LLM é estritamente projetado para processar, resumir e gerar linguagem, muito parecido com um preditor de texto altamente avançado. Um LAM incorpora essa compreensão de linguagem, mas é especificamente projetado para interagir com ferramentas externas e concluir ações digitais.
- LAM vs. Agentic AI: "Agentic AI" descreve o sistema geral ou a entidade de software que opera de forma autônoma. O Large Action Model é a rede neural subjacente — o "cérebro" — que dá ao agente sua capacidade de planejar e executar essas ações.
- LAM vs. Agentic RAG: O Agentic RAG concentra-se na recuperação e síntese autônoma de informações externas para melhorar a precisão de uma resposta gerada. Um LAM concentra-se na manipulação de sistemas e na alteração de estados (como reservar um voo ou mover arquivos) em vez de apenas recuperar dados.






