Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Guías

¿Qué es la estimación de profundidad monocular? Un resumen

Aprende cómo funciona la estimación de profundidad monocular, cómo se compara con los métodos de profundidad basados en sensores y cómo permite la percepción 3D escalable en sistemas de visión.

ABAbirami Vina
8 min read
Un mapa de profundidad predicho creado usando estimación de profundidad monocular

Los coches autónomos están diseñados para entender lo que ocurre a su alrededor para así poder conducir con seguridad. Esto significa ir más allá de simplemente reconocer objetos como peatones u otros vehículos.

También necesitan saber a qué distancia están esos objetos para responder correctamente. Sin embargo, dar a las máquinas este sentido de la distancia no es sencillo. A diferencia de los humanos, no perciben la profundidad de las imágenes de forma natural y tienen que aprender explícitamente a hacerlo.

Una de las razones es que la mayoría de las cámaras capturan el mundo como imágenes planas bidimensionales. Convertir esas imágenes en algo que refleje la profundidad y la estructura 3D del mundo real es complicado, especialmente cuando los sistemas necesitan funcionar de forma fiable en condiciones cotidianas.

Curiosamente, la computer vision, que es una rama de la IA que se centra en interpretar y entender datos visuales, hace posible que las máquinas entiendan mejor el mundo a partir de las imágenes. Por ejemplo, la depth estimation monocular es una técnica de computer vision que estima la distancia de los objetos utilizando solo la imagen de una cámara.

Al aprender pistas visuales como el tamaño, la perspectiva, la textura y el sombreado de los objetos, estos modelos pueden predecir la profundidad sin depender de sensores adicionales como LiDAR (Light Detection and Ranging) o cámaras estéreo. En este artículo, exploraremos qué es la estimación de profundidad monocular, cómo funciona y algunas de sus aplicaciones en el mundo real. ¡Empecemos!

Link to this sectionUna breve introducción a la estimación de profundidad monocular#

La estimación de profundidad monocular permite a una máquina entender a qué distancia se encuentran los objetos usando solo una única imagen. Dado que se basa en una sola camera, este enfoque tiene varias ventajas, entre ellas un menor coste y unos requisitos de hardware más sencillos.

Por ejemplo, se puede utilizar en robots domésticos asequibles que funcionan con una sola cámara. Incluso a partir de una única imagen, el sistema robótico puede identificar qué paredes están más cerca y qué puertas están más lejos, e inferir la profundidad general del espacio.

A menudo, una sola imagen no contiene información a la escala correcta, por lo que la estimación de profundidad monocular generalmente se centra en la profundidad relativa. En otras palabras, puede determinar qué objetos están más cerca y cuáles están más lejos, aunque no se conozcan las distancias exactas.

Cuando un modelo se entrena con datos que tienen distancias de referencia o profundidad absoluta, como las mediciones de profundidad de sensores tipo LiDAR, puede aprender a predecir distancias en unidades del mundo real, como metros. Sin este tipo de datos de referencia, el modelo aún puede inferir la profundidad relativa, pero no puede estimar distancias absolutas de forma fiable.

El resultado de la estimación de profundidad monocular suele ser un mapa de profundidad, que es una imagen en la que cada píxel representa la proximidad o lejanía de esa parte de la escena. Un mapa de profundidad proporciona a los sistemas de visión una comprensión básica de la estructura 3D del entorno.

Un ejemplo de un mapa de profundidad previsto creado mediante estimación de profundidad monocular

Fig 1. Un ejemplo de un mapa de profundidad previsto creado mediante estimación de profundidad monocular (Source)

Link to this sectionDe los sensores a las imágenes: Estimación de la profundidad#

La estimación de la profundidad puede abordarse de varias maneras, dependiendo de los sensores disponibles, las limitaciones de hardware y los requisitos de precisión. Los métodos tradicionales suelen depender de múltiples puntos de vista o de sensores especializados para medir la distancia directamente.

Un enfoque común es la visión estéreo, que estima la profundidad comparando dos imágenes sincronizadas capturadas desde puntos de vista ligeramente diferentes. Al medir la diferencia entre los puntos correspondientes de ambas imágenes, el sistema puede inferir a qué distancia están los objetos de la cámara.

Otro enfoque son los sistemas RGB-D (Red, Green, Blue, and Depth), que utilizan sensores de profundidad activos para medir directamente la distancia en cada píxel. Estos sistemas pueden proporcionar información precisa sobre la profundidad en entornos controlados, pero requieren hardware adicional.

Mientras tanto, los métodos basados en LiDAR utilizan pulsos láser para generar representaciones tridimensionales precisas de una escena. Aunque son muy precisos, los sensores LiDAR suelen ser caros y añaden una complejidad de hardware considerable.

Por el contrario, la estimación de profundidad monocular infiere la profundidad utilizando solo una única imagen RGB. Como no depende de varias cámaras ni de sensores especializados, es más fácil de implementar a gran escala y es una buena opción cuando el coste y los recursos de hardware son limitados.

Link to this sectionAprender la profundidad a partir de una única imagen#

Al estimar la profundidad a partir de una única imagen, los modelos de profundidad monocular aprenden a reconocer las pistas visuales que los humanos utilizan instintivamente para juzgar la distancia. Estas pistas incluyen líneas de perspectiva, el tamaño de los objetos, la densidad de la textura, la superposición de objetos y el sombreado, todos los cuales dan pistas sobre la distancia a la que se encuentran los objetos de la cámara.

Estas pistas trabajan juntas para crear una sensación de profundidad. Los objetos que parecen más pequeños o están parcialmente ocluidos suelen estar más lejos, mientras que los detalles más claros y las apariencias visuales más grandes suelen sugerir que algo está más cerca.

Para aprender estos patrones, los modelos de profundidad monocular se entrenan con grandes conjuntos de datos de imágenes, a menudo emparejados con información de profundidad obtenida de otras fuentes, como LiDAR o sistemas estéreo. Durante el entrenamiento, los modelos aprenden cómo se relacionan las pistas visuales con la profundidad, lo que les permite inferir la distancia a partir de una única imagen en el momento de la inferencia.

Con datos de entrenamiento diversos, los modelos de visión modernos pueden generalizar esta comprensión aprendida a una amplia gama de entornos, incluyendo escenas interiores y exteriores, y pueden manejar puntos de vista desconocidos.

Link to this sectionUn vistazo a diversas técnicas de estimación de profundidad monocular#

A continuación, exploraremos los principales enfoques utilizados para estimar la profundidad a partir de una única imagen y cómo han evolucionado estos métodos a lo largo del tiempo.

Link to this sectionEnfoques clásicos y basados en la geometría#

Los primeros métodos de estimación de profundidad se basaban en reglas visuales sencillas vinculadas a la camera geometry. Se utilizaban pistas como la perspectiva, el tamaño de los objetos y si un objeto bloqueaba a otro para estimar la distancia.

Por ejemplo, cuando dos objetos similares aparecían con tamaños diferentes, se suponía que el más pequeño estaba más lejos. Estos enfoques funcionaban razonablemente bien en entornos controlados donde factores como la iluminación, la posición de la cámara y la disposición de la escena permanecían constantes.

Sin embargo, en escenas del mundo real, estas suposiciones a menudo fallan. Las variaciones en la iluminación, los cambios de punto de vista y la mayor complejidad de la escena pueden dar lugar a estimaciones de profundidad poco fiables, lo que limita la eficacia de los métodos clásicos en entornos no controlados.

Link to this sectionPrimeros enfoques de aprendizaje automático#

Los primeros métodos de aprendizaje automático aportaron más flexibilidad a la estimación de la profundidad al aprender patrones directamente de los datos. En lugar de depender solo de reglas geométricas fijas, estos modelos intentaron aprender la relación entre la información visual y la distancia, tratando la predicción de la profundidad como un problema de regresión basado en pistas como bordes, texturas y cambios de color.

La selección de estas características fue una parte clave del proceso. Los ingenieros tenían que decidir qué señales visuales extraer y cómo representarlas, y el rendimiento del modelo dependía en gran medida de esas elecciones.

Aunque este enfoque funcionó mejor que los métodos anteriores, seguía teniendo límites. Si a las características seleccionadas les faltaba contexto importante, las predicciones de profundidad eran menos precisas. A medida que las escenas se volvían más complejas y variadas, estos modelos a menudo tenían dificultades para producir resultados fiables.

Link to this sectionAlgoritmos de aprendizaje profundo#

La mayoría de los sistemas modernos de estimación de profundidad monocular utilizan el aprendizaje profundo, que se refiere a redes neuronales con muchas capas capaces de aprender patrones complejos a partir de datos. Estos modelos aprenden a predecir la profundidad directamente a partir de las imágenes y producen mapas de profundidad.

Muchos enfoques se construyen utilizando convolutional neural networks (CNNs), un tipo de red neuronal diseñada para procesar imágenes detectando patrones como bordes y formas. Estos modelos a menudo utilizan una configuración de codificador-decodificador: el codificador extrae características visuales de la imagen y el decodificador convierte esas características en un mapa de profundidad. Procesar la imagen a múltiples escalas ayuda al modelo a captar la disposición general de la escena sin dejar de capturar los límites claros de los objetos.

Los modelos más recientes se centran en entender las relaciones entre las distintas partes de una imagen. Los modelos basados en Transformer y Vision Transformer (ViT) utilizan mecanismos de atención, que permiten al modelo identificar qué regiones de una imagen son más relevantes y relacionar áreas distantes entre sí. Esto ayuda al modelo a construir una comprensión más coherente de la profundidad en toda la escena.

Algunos sistemas combinan ambas ideas. Los modelos híbridos CNN-Transformer utilizan CNN para capturar detalles locales finos y Transformers para modelar el contexto global de la escena. Aunque esto suele mejorar la precisión, generalmente requiere más recursos computacionales, como memoria adicional y potencia de procesamiento.

Link to this sectionPor qué es importante la comprensión de la profundidad para los sistemas de visión por IA#

A medida que aprendes sobre la estimación de profundidad monocular, es posible que te preguntes por qué la comprensión de la profundidad es una parte tan importante de los sistemas de IA basados en la visión.

Cuando un sistema puede estimar a qué distancia están los objetos y las superficies, obtiene una mejor comprensión de cómo está dispuesta una escena y cómo se relacionan los diferentes elementos entre sí. Este tipo de conciencia espacial es esencial para tomar decisiones fiables, especialmente en aplicaciones del mundo real como la conducción autónoma.

La información de profundidad también añade un contexto valioso a otras tareas de computer vision. Por ejemplo, la detección de objetos, apoyada por modelos como Ultralytics YOLO26, puede decirle a un sistema qué hay presente en una escena, pero la profundidad ayuda a responder dónde están ubicados esos objetos en relación con la cámara y entre sí.

Juntas, estas capacidades permiten una amplia gama de aplicaciones de IA de visión, como la construcción de mapas 3D, la navegación en entornos complejos y la comprensión de una escena en su conjunto.

Los robots y los vehículos autónomos dependen de esta información para moverse con seguridad, evitar obstáculos y reaccionar a los cambios en tiempo real. Por ejemplo, el enfoque de Tesla’s vision-only driving depende de imágenes de cámara combinadas con la estimación de profundidad, en lugar de LiDAR, para entender a qué distancia están los objetos y cómo están posicionados en la carretera.

Link to this sectionCómo funcionan los modelos de estimación de profundidad monocular#

Aunque las arquitecturas de los modelos varían, la mayoría de los modelos de estimación de profundidad monocular siguen un proceso similar para convertir una sola imagen en un mapa de profundidad. Aquí tienes una rápida visión general de los pasos clave involucrados:

  • Entrada y preprocesamiento: El flujo de trabajo comienza con una imagen de entrada. Antes de pasar al modelo, la imagen original se suele redimensionar, normalizar y convertir en un tensor, que es un formato que las redes neuronales utilizan para procesar datos de imagen de forma eficiente.
  • Extracción de características: Una red codificadora analiza la imagen para extraer características visuales significativas. Estas características capturan información como texturas, límites de objetos y la disposición general de la escena. La mayoría de los modelos operan a múltiples escalas para que puedan entender tanto los detalles finos como la estructura global.
  • Razonamiento sobre profundidad: Utilizando las características extraídas, el modelo combina detalles locales con el contexto global para razonar sobre las relaciones espaciales en la escena. En esta etapa, aprende qué regiones de la imagen están más cerca de la cámara y cuáles están más lejos.
  • Generación del mapa de profundidad: Un decodificador convierte entonces esta información en un mapa de profundidad denso. A cada píxel de la imagen se le asigna un valor de profundidad, a menudo mezclando predicciones de diferentes escalas para mejorar la precisión y la consistencia.

Link to this sectionCómo se entrenan los modelos de estimación de profundidad monocular#

El proceso que acabamos de comentar supone que ya tenemos un modelo entrenado o preentrenado. Pero, ¿cómo funciona realmente el entrenamiento de un modelo de estimación de profundidad monocular?

El entrenamiento comienza preparando los datos de imagen para que puedan ser procesados eficientemente por la red. Las imágenes de entrada se redimensionan y se normalizan a una escala consistente, luego se pasan a través del modelo para generar un mapa de profundidad previsto que estima la distancia en cada píxel.

El mapa de profundidad previsto se compara entonces con los datos de profundidad de referencia utilizando una función de pérdida, que mide cuánto se aleja la predicción del modelo de la profundidad real (ground-truth). Este valor de pérdida representa el error actual del modelo y proporciona una señal para su mejora.

Un optimizador utiliza esta señal para actualizar el modelo ajustando sus pesos internos. Para ello, el optimizador calcula el gradiente, que describe cómo cambia la pérdida con respecto a cada parámetro del modelo, y aplica estas actualizaciones repetidamente a lo largo de varias épocas, o pases completos a través del conjunto de datos de entrenamiento.

Este proceso de entrenamiento de aprendizaje supervisado iterativo se guía por hiperparámetros como la tasa de aprendizaje (learning rate), que controla lo grande que es cada paso de actualización, y el tamaño del lote (batch size), que determina cuántas imágenes se procesan a la vez. Dado que el entrenamiento implica un gran número de operaciones matemáticas, normalmente se acelera utilizando una unidad de procesamiento gráfico (GPU), que es ideal para la computación paralela.

Una vez completado el entrenamiento, el modelo se evalúa utilizando métricas de evaluación estándar en un conjunto de validación, que consiste en imágenes que no se utilizaron durante el entrenamiento. Esta evaluación ayuda a medir cómo de bien generaliza el modelo a nuevos datos.

El modelo entrenado puede entonces reutilizarse o ajustarse para nuevos escenarios. En general, este proceso de entrenamiento permite que los modelos de estimación de profundidad monocular produzcan estimaciones de profundidad consistentes, que son esenciales para tareas posteriores como la reconstrucción 3D y el despliegue en el mundo real.

Link to this sectionExplorando modelos de vanguardia y tendencias de investigación#

La estimación de profundidad monocular ha mejorado rápidamente a medida que los modelos han sido capaces de entender escenas completas en lugar de solo pequeños detalles visuales. Los enfoques anteriores a menudo producían mapas de profundidad desiguales, especialmente en entornos complejos.

Los modelos más nuevos, como se ha visto en investigaciones recientes publicadas en arXiv, se centran más en un contexto global, lo que conduce a predicciones de profundidad que parecen más estables y realistas. Modelos bien conocidos como MiDaS y DPT ayudaron a impulsar este cambio al aprender la profundidad a partir de conjuntos de datos diversos y de alta resolución, generalizando bien a través de muchas escenas.

Modelos más recientes, incluyendo ZoeDepth y Depth Anything V2, se basan en este trabajo mejorando la consistencia de escala mientras mantienen un rendimiento sólido en una amplia gama de configuraciones. Este tipo de progreso a menudo se mide utilizando conjuntos de datos de referencia comunes como KITTI y NYU, que cubren tanto escenas exteriores como interiores.

Otra tendencia clara es equilibrar la precisión con la practicidad. Los modelos más pequeños se optimizan para la velocidad y pueden ejecutarse en tiempo real en dispositivos de borde (edge) o móviles, mientras que los modelos más grandes priorizan una mayor resolución y la precisión de la profundidad de largo alcance.

Link to this sectionAplicaciones de la estimación de profundidad monocular#

A continuación, vamos a ver algunos ejemplos del mundo real que muestran cómo se utiliza la estimación de profundidad monocular para razonar sobre la estructura 3D de una escena a partir de una única imagen.

En todos estos casos, es importante tener en cuenta que la información de profundidad es una estimación inferida a partir de pistas visuales, no una medición precisa. Esto hace que la estimación de profundidad monocular sea útil para entender el diseño relativo y las relaciones espaciales, pero no es un sustituto de los sensores diseñados para medir la distancia con precisión, como LiDAR o los sistemas estéreo.

Link to this sectionCartografía y navegación del terreno mediante drones#

Los Drones a menudo operan en entornos donde las señales GPS no son fiables, como bosques, obras de construcción, zonas de desastre o áreas urbanas densas. Para volar con seguridad en estas condiciones, necesitan entender el terreno circundante y saber a qué distancia están los obstáculos. En el pasado, esto solía requerir la incorporación de sensores como LiDAR o cámaras estéreo, que aumentan el peso, el consumo de energía y el coste total.

La estimación de profundidad monocular es una alternativa más sencilla. Utilizando solo una cámara RGB, los drones pueden estimar la profundidad a partir de las imágenes y construir una comprensión básica en 3D de su entorno. Esto les permite detectar obstáculos como edificios, árboles o cambios repentinos en el terreno y ajustar su ruta de vuelo en tiempo real.

Estas estimaciones de profundidad apoyan tareas de navegación clave, incluyendo la evitación de obstáculos, el control de altitud y el aterrizaje seguro. Como resultado, los drones ligeros pueden realizar tareas de cartografía, inspección y navegación sin depender de sensores de profundidad especializados.

Estimación de profundidad monocular utilizada para analizar imágenes de drones

Fig 2. La estimación de profundidad monocular se puede utilizar para analizar imágenes de drones (Source)

Link to this sectionCubriendo los puntos ciegos de los vehículos de carreras autónomos#

Los vehículos autónomos suelen depender en gran medida de sensores LiDAR, que utilizan pulsos láser para medir la distancia y construir una vista 3D de la carretera. Aunque son muy precisos, el LiDAR puede tener dificultades con crestas de carretera pronunciadas, pendientes pronunciadas, oclusión o un cabeceo repentino del vehículo, a veces devolviendo datos de profundidad dispersos o inexistentes.

La estimación de profundidad monocular puede ayudar a cubrir estas brechas proporcionando información de profundidad densa a partir de una única imagen RGB, incluso cuando los datos LiDAR están incompletos. Considera un escenario en el que un self-driving car se acerca a la cresta de una colina a gran velocidad. Los haces LiDAR pueden sobrepasar la carretera más allá de la cresta, dejando incertidumbre sobre lo que hay por delante.

La estimación de profundidad basada en cámara, sin embargo, aún puede inferir la forma de la carretera a partir de pistas visuales como la perspectiva y la textura, ayudando al vehículo a mantener una percepción fiable hasta que los datos LiDAR se estabilicen. Juntos, el LiDAR y la estimación de profundidad monocular permiten una percepción más estable y un control más seguro en condiciones de conducción desafiantes.

Una visualización del uso de la estimación de profundidad monocular para carreras autónomas

Fig 3. Una visualización del uso de la estimación de profundidad monocular para carreras autónomas (Source)

Los robots operan a menudo en lugares donde no se dispone de mapas detallados y las condiciones cambian constantemente. Para moverse con seguridad, necesitan una idea fiable de cuánto espacio hay a su alrededor y dónde están ubicados los obstáculos.

La estimación de profundidad monocular puede proporcionar esta conciencia espacial utilizando una única cámara RGB, sin depender de hardware pesado o caro. Al aprender pistas visuales como la escala y la perspectiva, los modelos de estimación de profundidad pueden generar mapas de profundidad densos del entorno. Esto da a los robots una visión clara de la distancia a las superficies y los objetos.

En particular, cuando la información de profundidad se combina con tareas de computer vision como object detection y segmentation semántica, los robots pueden obtener una visión más completa de su entorno. Pueden identificar objetos, entender su distancia y decidir dónde es seguro moverse. Esto favorece la evitación de obstáculos, la detección de espacio libre y la planificación de rutas en tiempo real.

Detectando objetos usando estimación de profundidad monocular y detección de objetos

Fig 4. Detectando objetos usando estimación de profundidad monocular y detección de objetos (Source)

Link to this sectionPros y contras de la estimación de profundidad monocular#

Aquí tienes algunas de las principales ventajas de utilizar la estimación de profundidad monocular:

  • Ligero y eficiente energéticamente: El uso de una sola cámara reduce el peso del sistema y el consumo de energía, lo cual es especialmente importante para robots móviles, drones y sistemas embebidos.
  • Amigable con la fusión de sensores: La profundidad monocular puede complementar a otros sensores, como LiDAR o radar, cubriendo lagunas o proporcionando redundancia.
  • Funciona en muchos entornos: El mismo enfoque basado en cámara puede utilizarse en interiores, exteriores y en diferentes plataformas sin necesidad de cambios en el hardware.

Aunque la estimación de profundidad monocular ofrece ventajas claras, aquí tienes algunas limitaciones a considerar:

  • Menor precisión que los sensores activos: Aunque está mejorando rápidamente, la estimación de profundidad monocular generalmente no puede igualar la precisión absoluta de LiDAR o los sensores de luz estructurada en condiciones controladas.
  • Sensibilidad a las condiciones de iluminación: El rendimiento puede degradarse en entornos con poca luz, sombras fuertes, deslumbramiento o escenas con poca textura.
  • Desafíos de generalización: Un modelo entrenado en un entorno puede no transferirse siempre de forma fiable a dominios no vistos sin adaptación o ajuste fino.

Link to this sectionCuándo no confiar en la estimación de profundidad monocular#

Aunque la estimación de profundidad monocular es un área interesante de investigación, es importante entender dónde puede utilizarse prácticamente y dónde no. Las distancias que produce son estimaciones basadas en lo que el modelo ve en una imagen, no mediciones exactas tomadas del mundo real.

Debido a esto, la calidad de los resultados puede cambiar dependiendo de factores como la iluminación, la complejidad de la escena y lo similar que sea la escena a aquella con la que se entrenó el modelo. La estimación de profundidad monocular suele ser buena para distinguir lo que está más cerca y lo que está más lejos, pero no es fiable cuando necesitas distancias exactas.

En situaciones donde la precisión es realmente importante, como los sistemas críticos para la seguridad, la inspección industrial o los robots que necesitan interactuar con mucha precisión con los objetos, la profundidad debe medirse directamente. Sensores como LiDAR, radar, cámaras estéreo o sistemas de luz estructurada están diseñados para esto y proporcionan información de distancia mucho más fiable.

La estimación de profundidad monocular también puede tener dificultades en condiciones visualmente difíciles. La poca iluminación, las sombras fuertes, las superficies reflectantes o transparentes, la niebla, el humo o las escenas con muy poca textura visual pueden hacer que las estimaciones de profundidad sean menos fiables. Estimar la profundidad a largas distancias es otro caso en el que los sensores dedicados suelen funcionar mejor.

Cuando se trata de soluciones en el mundo real, la estimación de profundidad monocular funciona mejor como herramienta de apoyo que como solución independiente. Puede añadir un contexto espacial útil, ayudar a cubrir lagunas cuando otros sensores son limitados y mejorar la comprensión general de la escena. Sin embargo, no debería ser la única fuente de información de profundidad cuando los requisitos de precisión, seguridad o fiabilidad estricta sean importantes.

Link to this sectionPuntos clave#

La estimación de profundidad monocular es una técnica de visión artificial que permite a las máquinas calcular la distancia a la que se encuentran los objetos utilizando únicamente una imagen de cámara. Mediante el aprendizaje de señales visuales como la perspectiva, el tamaño de los objetos, la textura y el sombreado, estos modelos de IA pueden inferir la estructura 3D de una escena sin depender de sensores como LiDAR o cámaras estéreo. Esto convierte a la estimación de profundidad monocular en un enfoque rentable y escalable para aplicaciones como la conducción autónoma, la robótica y la comprensión de escenas 3D.

Para explorar más sobre la IA de visión, visita nuestro GitHub repository y únete a nuestra community. Echa un vistazo a nuestras páginas de soluciones para aprender sobre AI in robotics y computer vision in manufacturing. ¡Descubre our licensing options para empezar con la visión artificial hoy mismo!

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático