Large Action Models (LAM)
Explora los modelos de acción grandes (LAM) y cómo impulsan a los agentes de IA autónomos. Aprende a integrar Ultralytics YOLO26 para flujos de trabajo de visión-a-acción y automatización de tareas.
Los Modelos de Acción a Gran Escala (LAM) son una clase avanzada de inteligencia artificial generativa diseñada para ir más allá de la generación de texto, ejecutando tareas de forma autónoma e interactuando con entornos digitales. A diferencia de los modelos tradicionales que procesan y producen texto estrictamente, los LAM actúan como el motor cognitivo central de los agentes de IA, traduciendo la intención humana en acciones concretas de varios pasos. Al cerrar la brecha entre la comprensión del lenguaje natural y la ejecución en el mundo real, estos modelos representan un salto significativo hacia la Inteligencia Artificial General (AGI) y los sistemas altamente autónomos.
Link to this sectionCómo funcionan los Modelos de Acción a Gran Escala#
Los LAM se basan en la arquitectura fundamental de los modelos fundacionales, pero están entrenados específicamente para interactuar con software, API y entornos web. Mediante técnicas como el aprendizaje por refuerzo y la invocación de funciones, un LAM puede dividir una solicitud compleja del usuario en pasos lógicos, navegar por interfaces gráficas de usuario y ejecutar endpoints de API. Por ejemplo, los avances recientes de Anthropic's Claude 3.5 computer use y la familia xLAM de Salesforce demuestran cómo estos sistemas pueden hacer clic en botones, rellenar formularios y gestionar flujos de trabajo de forma autónoma, tal y como lo haría un operador humano.
Cuando se combinan con sistemas de visión artificial, los LAM se vuelven aún más potentes. Las entradas visuales pueden ser procesadas por modelos altamente eficientes como Ultralytics YOLO26, permitiendo que el LAM "vea" su entorno, interprete el contexto visual y desencadene acciones programáticas específicas basadas en lo que detecta.
Link to this sectionAplicaciones en el mundo real#
Los LAM están transformando la forma en que las industrias abordan la automatización de tareas, pasando de la asistencia pasiva a la ejecución activa.
- IA en el comercio minorista y atención al cliente: En lugar de limitarse a responder preguntas de los clientes, un LAM puede procesar una devolución de producto de forma autónoma. Si un usuario solicita cancelar un pedido, el modelo puede navegar por el software de facturación de la empresa, verificar la política, emitir el reembolso y actualizar la base de datos de inventario sin intervención humana.
- IA en la administración sanitaria: En entornos clínicos, los LAM coordinan flujos de trabajo complejos. Pueden extraer las solicitudes de los pacientes, verificar la disponibilidad de los médicos, actualizar automáticamente las Historias Clínicas Electrónicas (EHR) a través del software médico interno y finalizar la programación de citas.
Link to this sectionAutomatización de flujos de trabajo de visión con código#
Los LAM se integran frecuentemente con modelos de visión para automatizar inspecciones visuales. El siguiente ejemplo en Python demuestra cómo un flujo de trabajo LAM hipotético podría aprovechar ultralytics para escanear una imagen y desencadenar una acción de inventario automatizada basada en los resultados de detección de objetos.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for an agentic vision task
model = YOLO("yolo26n.pt")
# The LAM commands the model to scan a warehouse shelf image
results = model.predict("inventory_shelf.jpg")
# The LAM extracts actionable data to autonomously trigger a supply reorder
for result in results:
detected_items = len(result.boxes)
if detected_items < 10:
print(f"Low inventory ({detected_items} items). Action triggered: Reordering supplies via API.")Puedes implementar y supervisar este tipo de flujos de trabajo integrados de visión y acción sin problemas utilizando Ultralytics Platform, que proporciona una infraestructura en la nube robusta para soluciones modernas de IA.
Link to this sectionDistinguir conceptos relacionados#
Para entender completamente el panorama actual de la IA, resulta útil distinguir los LAM de otros términos estrechamente relacionados:
- LAM frente a Modelo de Lenguaje Grande (LLM): Un LLM está diseñado estrictamente para procesar, resumir y generar lenguaje, muy parecido a un predictor de texto altamente avanzado. Un LAM incorpora esta comprensión del lenguaje, pero está diseñado específicamente para interactuar con herramientas externas y completar acciones digitales.
- LAM frente a IA agéntica: "IA agéntica" describe el sistema general o la entidad de software que opera de forma autónoma. El Modelo de Acción a Gran Escala es la red neuronal subyacente (el "cerebro") que dota al agente de su capacidad para planificar y realizar dichas acciones.
- LAM frente a RAG Agéntico: El RAG agéntico se centra en recuperar y sintetizar información externa de forma autónoma para mejorar la precisión de una respuesta generada. Un LAM se centra en manipular sistemas y cambiar estados (como reservar un vuelo o mover archivos) en lugar de limitarse a recuperar datos.






