Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Modelos de acción a gran escala (LAM)

Descubre los modelos de acción a gran escala (LAM) y cómo impulsan los agentes de IA autónomos. Aprende a integrar Ultralytics en flujos de trabajo de visión a acción y en la automatización de tareas.

Los modelos de acción a gran escala (LAM) constituyen una clase avanzada de inteligencia artificial generativa diseñada para ir más allá de la generación de texto mediante la ejecución autónoma de tareas y la interacción con entornos digitales. A diferencia de los modelos tradicionales que se limitan a procesar y producir texto, los LAM actúan como motor cognitivo central de los agentes de IA, traduciendo la intención humana en acciones concretas de varios pasos. Al salvar la brecha entre la comprensión del lenguaje natural y la ejecución en el mundo real, estos modelos representan un avance significativo hacia la Inteligencia Artificial General (AGI) y los sistemas altamente autónomos.

Cómo funcionan los modelos de acción a gran escala

Los LAM se basan en la arquitectura fundamental de los modelos base tradicionales, pero están entrenados específicamente para interactuar con software, API y entornos web. Mediante técnicas como el aprendizaje por refuerzo y la llamada a funciones, un LAM puede desglosar una solicitud compleja del usuario en pasos lógicos, navegar por interfaces gráficas de usuario y ejecutar puntos finales de API. Por ejemplo, los recientes avances del uso informáticoAnthropic Claude 3.5Anthropic y la familia xLAM de Salesforce demuestran cómo estos sistemas pueden hacer clic en botones, rellenar formularios y gestionar flujos de trabajo de forma autónoma, tal y como lo haría un operador humano.

Cuando se combinan con sistemas de visión artificial, los LAM se vuelven aún más potentes. Los datos visuales pueden procesarse mediante modelos altamente eficientes como Ultralytics , lo que permite al LAM «ver» su entorno, interpretar el contexto visual y activar acciones programáticas específicas en función de lo que detecte.

Aplicaciones en el mundo real

Los LAM están transformando la forma en que las industrias abordan la automatización de tareas, pasando de la asistencia pasiva a la ejecución activa.

  • La IA en el comercio minorista y la atención al cliente: En lugar de limitarse a responder a las preguntas de los clientes, un modelo de lenguaje autónomo (LAM) puede gestionar de forma autónoma la devolución de un producto. Si un usuario solicita cancelar un pedido, el modelo puede navegar por el software de facturación de la empresa, verificar la política de devoluciones, emitir el reembolso y actualizar la base de datos de inventario sin intervención humana.
  • La IA en la administraciónsanitaria: En entornos clínicos, los LAM coordinan flujos de trabajo complejos. Pueden extraer las solicitudes de los pacientes, comprobar la disponibilidad de los médicos, actualizar automáticamente las historias clínicas electrónicas (HCE) a través de software médico interno y cerrar la programación de citas.

Automatización de flujos de trabajo de visión artificial mediante código

Los LAM suelen integrarse con modelos de visión para automatizar las inspecciones visuales. El siguiente Python muestra cómo un flujo de trabajo hipotético de LAM podría aprovechar ultralytics escanear una imagen y activar una acción de inventario automatizada basada en el detección de objetos resultados.

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for an agentic vision task
model = YOLO("yolo26n.pt")

# The LAM commands the model to scan a warehouse shelf image
results = model.predict("inventory_shelf.jpg")

# The LAM extracts actionable data to autonomously trigger a supply reorder
for result in results:
    detected_items = len(result.boxes)
    if detected_items < 10:
        print(f"Low inventory ({detected_items} items). Action triggered: Reordering supplies via API.")

Los usuarios pueden implementar y supervisar este tipo de flujos de trabajo integrados de acción visual de forma fluida mediante la Ultralytics , que ofrece una sólida infraestructura en la nube para soluciones modernas de inteligencia artificial.

Distinguir conceptos relacionados

Para comprender plenamente el panorama actual de la IA, resulta útil distinguir los LAM de otros términos estrechamente relacionados:

  • LAM frente a modelo de lenguaje a gran escala (LLM): Un LLM está diseñado exclusivamente para procesar, resumir y generar lenguaje, de forma muy similar a un predictor de texto muy avanzado. Un LAM incorpora esta capacidad de comprensión del lenguaje, pero está diseñado específicamente para interactuar con herramientas externas y realizar acciones digitales.
  • LAM frente a la IA agentiva: La «IA agentiva» describe el sistema global o la entidad de software que funciona de forma autónoma. El Large Action Model es la red neuronal subyacente —el «cerebro»— que dota al agente de su capacidad para planificar y llevar a cabo esas acciones.
  • LAM frente a Agentic RAG: Agentic RAG se centra en la recuperación y síntesis autónomas de información externa para mejorar la precisión de una respuesta generada. Un LAM se centra en la manipulación de sistemas y el cambio de estados (como reservar un vuelo o mover archivos), en lugar de limitarse a recuperar datos.

¡Construyamos juntos el futuro de la IA!

Comience su viaje con el futuro del aprendizaje automático