Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Configuración de cookies
Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Descubre cuándo conviene optar por los puntos finales de inferencia dedicados de la Ultralytics para una implementación escalable y de baja latencia de la IA visual, en lugar de la inferencia compartida.
Amplíe sus proyectos de visión artificial con Ultralytics.
Recientemente, hemos presentado la Ultralytics , una solución integral que reúne todo el flujo de trabajo de la visión artificial en un solo lugar, desde la preparación de conjuntos de datos y el entrenamiento de modelos hasta la inferencia, la implementación y la supervisión.
Creada a partir de las aportaciones de la comunidad de visión artificial, la plataforma está diseñada para simplificar cada fase del desarrollo, al ofrecer funciones integradas que abarcan todo el ciclo de vida de las aplicaciones de IA para la visión.
Por ejemplo, una vez entrenado un modelo, el siguiente paso es implementarlo para que pueda utilizarse en aplicaciones del mundo real con el fin de realizar inferencias y hacer predicciones. La plataforma simplifica este proceso al ofrecer múltiples opciones de implementación.
Puedes exportar modelos para ejecutarlos en tu propio entorno, utilizar la inferencia compartida para realizar pruebas rápidas o implementar puntos finales dedicados para aplicaciones escalables y listas para producción. Cada una de estas opciones de implementación te permite ejecutar inferencias de IA, pero están diseñadas para diferentes etapas y casos de uso.
Fig. 1. Ultralytics permite la implementación escalable de modelos de IA de visión a nivel mundial (Fuente)
La exportación de modelos te ofrece un control total para ejecutar modelos en tu propia infraestructura; la inferencia compartida facilita las pruebas y los experimentos sin necesidad de configuración; y los puntos de conexión dedicados están diseñados para cargas de trabajo de producción fiables y a gran escala.
A primera vista, la inferencia compartida y los terminales dedicados pueden parecer bastante similares. Ambos permiten enviar solicitudes de API al modelo y recibir predicciones estructuradas, lo que facilita la integración de la IA de visión en las aplicaciones.
Sin embargo, a medida que aumentan las cargas de trabajo y las aplicaciones de visión artificial comienzan a gestionar solicitudes de inferencia en tiempo real, las diferencias entre estas opciones cobran mayor importancia. En este artículo, analizaremos en detalle la inferencia compartida y los puntos finales dedicados, cómo se comparan, cuándo utilizar cada uno y por qué los puntos finales dedicados se convierten en la mejor opción a medida que las aplicaciones se amplían.
Descripción general de la implementación mediante inferencias compartidas
La inferencia compartida es una forma sencilla de ejecutar inferencias de IA en tus modelos sin necesidad de configurar ninguna infraestructura ni preocuparte por GPU , la integración de marcos de trabajo o la configuración del entorno de ejecución. Una vez que tu modelo esté entrenado o ajustado, podrás utilizarlo para realizar predicciones directamente a través de la plataforma.
En esta configuración, tu modelo se ejecuta en recursos informáticos compartidos y multitenant repartidos por varias regiones principales, como EE. UU., Europa y Asia-Pacífico. Las solicitudes se redirigen automáticamente a los servicios disponibles, por lo que no es necesario configurar GPU ni entornos de ejecución. Todo se gestiona automáticamente, lo que facilita el inicio.
Cuando utilizas la inferencia compartida, envías solicitudes a tu modelo a través de una REST API herramientas como Python CLI, y recibes resultados estructurados en formato JSON, como los objetos detectados, las puntuaciones de confianza y otros detalles de la predicción. Esto facilita enormemente la prueba de los modelos y su integración en las aplicaciones.
Dado que se trata de un sistema compartido, está diseñado para el desarrollo, las pruebas y un uso moderado. Resulta adecuado para validar predicciones y crear integraciones iniciales. No obstante, el rendimiento puede variar en función de la carga del sistema, y el uso está limitado a 20 solicitudes por minuto por clave API, lo que lo hace menos adecuado para cargas de trabajo de producción de alto rendimiento.
En general, la inferencia compartida resulta más adecuada para las primeras fases del desarrollo, en las que lo principal es comprender y mejorar el modelo antes de pasar a aplicaciones a mayor escala.
Implementa modelos a nivel global utilizando puntos de conexión dedicados
Los puntos finales dedicados son servicios de inferencia de uso exclusivo en los que tus modelos de IA para visión se ejecutan en recursos informáticos aislados. En lugar de compartir la infraestructura, cada punto final cuenta con su propio entorno de ejecución con recursos configurables, como CPU la memoria, lo que te ofrece un mayor control sobre el rendimiento.
Cuando se implementa un modelo como punto final dedicado, se le asigna una URL de API única y utiliza su clave de API para la autenticación, lo que facilita su integración en las aplicaciones. Estos puntos finales se pueden implementar en 43 regiones de todo el mundo, lo que le permite ejecutar la inferencia más cerca de sus usuarios y reducir la latencia.
Fig. 2. Se pueden implementar puntos de conexión dedicados en 43 regiones de todo el mundo (Fuente)
Una de las principales ventajas es el autoescalado. Los nodos se ajustan automáticamente en función de las solicitudes entrantes, ampliándose para gestionar un mayor volumen de tráfico y reduciéndose cuando la demanda disminuye. Con la opción «scale-to-zero» activada de forma predeterminada, los nodos pueden apagarse cuando están inactivos y reiniciarse cuando sea necesario, lo que ayuda a optimizar el uso de los recursos.
En otras palabras, los terminales dedicados están diseñados para cargas de trabajo de producción. Ofrecen una baja latencia constante, un mayor rendimiento y una mayor fiabilidad en comparación con la inferencia compartida.
Además, los puntos de conexión dedicados no tienen límites de velocidad. Las solicitudes se envían directamente a tu punto de conexión, por lo que la cantidad de tráfico que puedas gestionar depende de tu configuración y escalabilidad, y no de límites fijos.
Además, las funciones integradas de supervisión, los registros, las comprobaciones de estado y el comportamiento predecible en tiempo de ejecución y al inicio facilitan track y garantizan la estabilidad de las implementaciones en todos los planes. En el plan gratuito, los arranques en frío suelen tardar entre 5 y 45 segundos, mientras que los puntos finales del plan Pro se mantienen activos, lo que se traduce en un rendimiento de inferencia más rápido y predecible.
En pocas palabras, los dispositivos dedicados son ideales para aplicaciones de IA de visión en tiempo real que requieren una inferencia fiable, escalable y de alto rendimiento.
Inferencia compartida frente a terminales dedicados: diferencias fundamentales
A continuación, analizamos en detalle las diferencias entre la inferencia compartida y los terminales dedicados:
Latencia: La latencia puede variar en entornos compartidos debido al uso compartido de recursos, mientras que los terminales dedicados ofrecen respuestas más consistentes y con baja latencia.
Regiones: La inferencia compartida está disponible en algunas regiones (EE. UU., UE, AP), mientras que los puntos de conexión dedicados permiten la implementación en 43 regiones de todo el mundo.
Escalabilidad: La escalabilidad no es configurable en la inferencia compartida, mientras que los puntos finales dedicados se escalan automáticamente en función del tráfico entrante.
Límites de frecuencia: La inferencia compartida está sujeta a límites de frecuencia (20 solicitudes o llamadas a la API por minuto por clave de API), mientras que los puntos de conexión dedicados no tienen límites de frecuencia de la plataforma.
Precios: La inferencia compartida se incluye sin coste adicional para las fases de prueba y desarrollo, mientras que los puntos de conexión dedicados ofrecen mayor control y escalabilidad, y su uso depende de la configuración de los recursos y las necesidades de implementación.
Por qué los puntos finales dedicados son mejores para las cargas de trabajo de producción
A medida que las aplicaciones de inteligencia artificial y aprendizaje automático pasan de la fase de pruebas al uso en el mundo real, el rendimiento, la escalabilidad y la fiabilidad se convierten en aspectos esenciales. Por eso, los dispositivos dedicados ofrecen claras ventajas frente a la inferencia compartida.
Con los nodos dedicados, su modelo preentrenado o personalizado se ejecuta en sus propios recursos de computación, por lo que el rendimiento no se ve afectado por otros usuarios. Esto ayuda a mantener una latencia baja y constante, lo cual es importante para aplicaciones en tiempo real, como el análisis de vídeo y los sistemas de monitorización.
Fig. 3. Descripción de la implementación mediante un punto final de inferencia dedicado (Fuente)
Por ejemplo, pensemos en un sistema de análisis para el sector minorista que procesa imágenes de cámaras en tiempo real de varias tiendas. Al implementar terminales en 43 regiones de todo el mundo, la inferencia se puede ejecutar más cerca de cada tienda, lo que reduce la latencia y mejora los tiempos de respuesta.
En el caso de la inferencia compartida, donde los recursos son compartidos y las regiones son limitadas, el rendimiento puede variar durante los periodos de mayor actividad.
Los puntos finales dedicados también pueden gestionar un mayor volumen de tráfico y adaptarse automáticamente en función de la demanda. Gracias a las funciones integradas de supervisión, registros y comprobaciones de estado, ofrecen un rendimiento más predecible, lo que los convierte en una opción idónea para cargas de trabajo de IA continuas y a gran escala.
El lugar que ocupa la inferencia compartida en el flujo de trabajo de la IA visual
Al analizar las diferencias entre la inferencia compartida y los terminales dedicados, quizá te preguntes qué lugar ocupa la inferencia compartida en el flujo de trabajo general de la visión artificial.
Volvamos a fijarnos en el ejemplo del análisis de datos en el sector minorista. Antes de implementar una solución de visión artificial en varias tiendas, los equipos suelen tener que probar su rendimiento con datos reales y perfeccionarla en función de esos resultados.
La inferencia compartida simplifica este proceso, ya que permite enviar imágenes de muestra o fotogramas de vídeo de las cámaras de la tienda y revisar rápidamente las predicciones sin necesidad de configurar ninguna infraestructura. Esto resulta especialmente útil para comprobar el comportamiento del modelo, depurar predicciones incorrectas y validar los resultados en diferentes condiciones, como cambios en la iluminación o en la distribución de la tienda.
Mediante este proceso iterativo, los equipos pueden mejorar la precisión y la fiabilidad del modelo antes de pasar a la fase de producción. Una vez que el modelo ofrece un buen rendimiento en estos escenarios de prueba, se puede implementar en terminales específicos para su uso en tiempo real en múltiples ubicaciones.
La inferencia compartida también puede funcionar bien en aplicaciones con un uso reducido o esporádico. Por ejemplo, una pequeña tienda minorista podría utilizarla para analizar ocasionalmente el tráfico de clientes o revisar la actividad de los clientes en momentos concretos, sin necesidad de una implementación a gran escala. En estos casos, ofrece una forma sencilla y rentable de ejecutar la inferencia bajo demanda.
Casos de uso reales de terminales dedicados
A medida que las aplicaciones de IA van más allá de la fase de pruebas, la elección del modelo de implementación empieza a influir directamente en el rendimiento, la escalabilidad y la experiencia del usuario. Los terminales dedicados pueden utilizarse ampliamente en todos los sectores, ya que ofrecen un rendimiento estable, una baja latencia y la capacidad de gestionar cargas de trabajo a gran escala.
A continuación se presentan algunos casos de uso habituales que muestran cómo se pueden utilizar los puntos finales dedicados en aplicaciones del mundo real:
Comercio minorista y análisis de vídeo: una cadena minorista puede utilizar la visión artificial para track los movimientos track , identificar los productos más populares y supervisar la actividad de la tienda en tiempo real. Los terminales dedicados garantizan una inferencia rápida y coherente en múltiples establecimientos, incluso en las horas punta.
Fabricación e inspección de calidad: en una línea de producción, los modelos pueden detect o anomalías a medida que los productos avanzan por el sistema. Los dispositivos dedicados admiten la inferencia continua en tiempo real, lo que ayuda a los equipos a detectar problemas de forma temprana y a mantener la calidad del producto sin ralentizar las operaciones.
Atención sanitaria e imágenes médicas: Los profesionales sanitarios y los laboratorios de diagnóstico pueden confiar en los modelos de visión para analizar imágenes médicas, como radiografías o tomografías. Los dispositivos dedicados ofrecen un rendimiento fiable y constante, algo fundamental a la hora de manejar datos confidenciales y realizar diagnósticos en los que el tiempo es un factor crítico.
Automatización de almacenes y logística: los grandes almacenes suelen utilizar múltiples sistemas idénticos, como cintas transportadoras y líneas de clasificación, que, en la práctica, funcionan como réplicas de la misma configuración. Los modelos de visión artificial pueden supervisar cada réplica para detect como atascos o paquetes desviados. Los terminales específicos garantizan una inferencia coherente en todas las réplicas en tiempo real.
Pasar de la inferencia compartida a los puntos finales dedicados
Una de las principales ventajas de la Ultralytics es lo fácil que resulta pasar de la inferencia compartida a nodos dedicados a medida que crece tu aplicación. En lugar de cambiar de herramientas o volver a configurar todo, puedes pasar a una implementación lista para producción dentro del mismo entorno.
Una vez que haya probado su modelo con la inferencia compartida, el siguiente paso es pasar a un punto de conexión dedicado, lo cual resulta muy sencillo. Puede implementar el mismo modelo en un punto de conexión, elegir la región y los recursos de computación que prefiera, y actualizar la URL del punto de conexión en su aplicación. La integración general sigue siendo similar, por lo que apenas habrá cambios en la forma de enviar solicitudes o gestionar las respuestas.
Fig. 4. Visualización de una URL de punto final específico en Ultralytics (Fuente)
Esto significa que puedes pasar de la fase de pruebas a la de producción con solo unos clics. A medida que aumente tu carga de trabajo o tu aplicación requiera un rendimiento más constante, podrás pasar a nodos dedicados sin interrumpir tu flujo de trabajo actual.
Para obtener más información sobre cómo implementar modelos utilizando puntos de conexión dedicados en la Ultralytics , consulta la documentación oficial de Ultralytics .
Conclusiones clave
La inferencia compartida es un excelente punto de partida para realizar pruebas y experimentos, pero las cargas de trabajo en producción exigen mayor consistencia y escalabilidad. A medida que las aplicaciones crecen, los terminales dedicados ofrecen el rendimiento y la fiabilidad necesarios para soportar el uso en el mundo real. Esto los convierte en la mejor opción para la mayoría de las implementaciones en producción.