Descubre los modelos de acción a gran escala (LAM) y cómo impulsan los agentes de IA autónomos. Aprende a integrar Ultralytics en flujos de trabajo de visión a acción y en la automatización de tareas.
Los modelos de acción a gran escala (LAM) constituyen una clase avanzada de inteligencia artificial generativa diseñada para ir más allá de la generación de texto mediante la ejecución autónoma de tareas y la interacción con entornos digitales. A diferencia de los modelos tradicionales que se limitan a procesar y producir texto, los LAM actúan como motor cognitivo central de los agentes de IA, traduciendo la intención humana en acciones concretas de varios pasos. Al salvar la brecha entre la comprensión del lenguaje natural y la ejecución en el mundo real, estos modelos representan un avance significativo hacia la Inteligencia Artificial General (AGI) y los sistemas altamente autónomos.
Los LAM se basan en la arquitectura fundamental de los modelos base tradicionales, pero están entrenados específicamente para interactuar con software, API y entornos web. Mediante técnicas como el aprendizaje por refuerzo y la llamada a funciones, un LAM puede desglosar una solicitud compleja del usuario en pasos lógicos, navegar por interfaces gráficas de usuario y ejecutar puntos finales de API. Por ejemplo, los recientes avances del uso informáticoAnthropic Claude 3.5Anthropic y la familia xLAM de Salesforce demuestran cómo estos sistemas pueden hacer clic en botones, rellenar formularios y gestionar flujos de trabajo de forma autónoma, tal y como lo haría un operador humano.
Cuando se combinan con sistemas de visión artificial, los LAM se vuelven aún más potentes. Los datos visuales pueden procesarse mediante modelos altamente eficientes como Ultralytics , lo que permite al LAM «ver» su entorno, interpretar el contexto visual y activar acciones programáticas específicas en función de lo que detecte.
Los LAM están transformando la forma en que las industrias abordan la automatización de tareas, pasando de la asistencia pasiva a la ejecución activa.
Los LAM suelen integrarse con modelos de visión para automatizar las inspecciones visuales. El siguiente Python
muestra cómo un flujo de trabajo hipotético de LAM podría aprovechar ultralytics escanear una imagen y activar una
acción de inventario automatizada basada en el
detección de objetos resultados.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for an agentic vision task
model = YOLO("yolo26n.pt")
# The LAM commands the model to scan a warehouse shelf image
results = model.predict("inventory_shelf.jpg")
# The LAM extracts actionable data to autonomously trigger a supply reorder
for result in results:
detected_items = len(result.boxes)
if detected_items < 10:
print(f"Low inventory ({detected_items} items). Action triggered: Reordering supplies via API.")
Los usuarios pueden implementar y supervisar este tipo de flujos de trabajo integrados de acción visual de forma fluida mediante la Ultralytics , que ofrece una sólida infraestructura en la nube para soluciones modernas de inteligencia artificial.
Para comprender plenamente el panorama actual de la IA, resulta útil distinguir los LAM de otros términos estrechamente relacionados:
Comience su viaje con el futuro del aprendizaje automático