ultralytics
Lleva tus modelos entrenados desde las pruebas en el navegador hasta los puntos finales de producción con solo unos clics, gracias al autoescalado, la supervisión en tiempo real y más de 17 formatos de exportación. La solución integral para la implementación de casos de uso en el mundo real.

43+
Regiones de implementación
17+
Formatos de exportación
500+
Implementaciones activas





Los nodos dedicados se amplían automáticamente para gestionar los picos de tráfico y se reducen a cero cuando están inactivos, por lo que nunca pagas por recursos informáticos que no utilizas.
Escalado a cero de forma predeterminada. Sin coste cuando tu punto de conexión no recibe solicitudes.
Sin límites de velocidad. Sin límites de velocidad. A diferencia de la inferencia compartida, los puntos de conexión dedicados no tienen límites de rendimiento, sino que solo están limitados por los recursos de tu punto de conexión.
Recursos configurables. Elige el número de CPU (1-8) y la memoria (1-32 GB) según los requisitos de tu modelo y los patrones de tráfico.
Ultralytics admite implementaciones tanto en la nube como en el borde. TodosYOLO Ultralytics están optimizados de forma nativa para funcionar de manera eficiente en distintos entornos, ofreciendo un rendimiento fiable incluso en hardware con recursos informáticos limitados.


Visibilidad completa en tiempo real del rendimiento de tus modelos. Una vez que tus modelos estén en producción, el panel de implementaciones te ofrece una visión general centralizada de todos los puntos finales en ejecución, con las métricas que necesitas para garantizar el funcionamiento fiable de tus marcos de trabajo.
Volumen de solicitudes. Total de solicitudes en todos los puntos de conexión durante las últimas 24 horas.
Latencia P95. Tiempo de respuesta del percentil 95 para track el rendimiento en casos de uso track .
Índices de error. Alertas destacadas cuando los índices de error superan el 5 %, con registros filtrados por gravedad para ayudarte a diagnosticar los problemas rápidamente.
Comprobaciones de estado. Indicadores de estado en tiempo real con reintento automático cuando los puntos finales no funcionan correctamente. La latencia de respuesta se muestra junto a cada comprobación.
Cada punto final implementado incluye ejemplos de código generados automáticamente en Python, JavaScript y cURL, que ya contienen tu URL de punto final y tu clave de API. Solo tienes que copiarlos, pegarlos y empezar a enviar solicitudes de inferencia desde cualquier aplicación.

Sí. Cada modelo se puede implementar en varias regiones a la vez . Tu plan determina el número total de puntos de conexión disponibles: 3 en la versión gratuita, 10 en la versión Pro e ilimitados en la versión Enterprise. Esto te permite dar servicio a usuarios de todo el mundo con puntos de conexión de baja latencia en cada región.
Los puntos de conexión dedicados se facturan en función de CPU, la memoria y el volumen de solicitudes. Como la opción «scale-to-zero» está habilitada de forma predeterminada, solo pagas por el tiempo de inferencia activo; no hay ningún coste cuando tu punto de conexión no recibe solicitudes. La inferencia compartida está incluida en tu plan de plataforma.
La inferencia compartida se ejecuta en un servicio multitenant en tres regiones y tiene un límite de 20 solicitudes por minuto. Es ideal para el desarrollo y las pruebas rápidas. Los puntos de conexión dedicados son servicios de un solo tenant que se implementan en cualquiera de las 43 regiones, sin límites de velocidad, con una latencia constante y recursos configurables, diseñados para cargas de trabajo de producción escalables.
La implementación de un punto final dedicado suele tardar entre uno y dos minutos. Esto incluye el aprovisionamiento del contenedor, su puesta en marcha y una comprobación inicial del estado para verificar que el servicio está listo. Una vez que el punto final está listo, comienza a aceptar solicitudes de inferencia de inmediato .
La implementación de modelos es el proceso mediante el cual se pone a disposición un modelo de visión artificial entrenado para que reciba y procese datos del mundo real. Una vez implementadas, las aplicaciones de visión artificial pueden enviar imágenes y fotogramas de vídeo al modelo a través de una API y recibir predicciones, lo que permite desde la inspección automatizada de la calidad hasta la detección de objetos en tiempo real en sistemas de producción. En Ultralytics , la implementación está integrada directamente en el flujo de trabajo de entrenamiento de extremo a extremo. Una vez entrenado el modelo, puede probarlo en el navegador, implementarlo en un punto final dedicado en cualquiera de las 43 regiones globales y supervisar su rendimiento, todo ello desde el mismo espacio de trabajo.
Lleva tus modelos entrenados a producción en 43 regiones de todo el mundo con escalado automático y supervisión en tiempo real.