Integración de la visión por ordenador en la robótica con Ultralytics YOLO11

Abirami Vina

5 minutos de lectura

18 de marzo de 2025

Descubra cómo los modelos de visión por ordenador como Ultralytics YOLO11 hacen que los robots sean más inteligentes y dan forma al futuro de la robótica.

Los robots han recorrido un largo camino desde Unimate, el primer robot industrial, que se inventó en la década de 1950. Lo que empezaron siendo máquinas preprogramadas basadas en reglas han avanzado hasta convertirse en sistemas inteligentes capaces de realizar tareas complejas e interactuar a la perfección con el mundo real. 

Hoy en día, los robots se utilizan en sectores tan diversos como la fabricación, la sanidad o la agricultura, para la automatización de procesos. Un factor clave en la evolución de la robótica es la IA y la visión por ordenador, una rama de la IA que ayuda a las máquinas a comprender e interpretar la información visual.

Por ejemplo, modelos de visión por ordenador como Ultralytics YOLO11 están mejorando la inteligencia de los sistemas robóticos. Cuando se integra en estos sistemas, Vision AI permite a los robots reconocer objetos, navegar por entornos y tomar decisiones en tiempo real.

En este artículo veremos cómo YOLO11 puede mejorar los robots con funciones avanzadas de visión por ordenador y exploraremos sus aplicaciones en diversos sectores.

Visión general de la IA y la visión por ordenador en robótica

La funcionalidad básica de un robot depende de lo bien que comprenda su entorno. Este conocimiento conecta su hardware físico con una toma de decisiones inteligente. Sin ella, los robots sólo pueden seguir instrucciones fijas y les cuesta adaptarse a entornos cambiantes o realizar tareas complejas. Al igual que los humanos se basan en la vista para orientarse, los robots utilizan la visión por ordenador para interpretar su entorno, comprender la situación y tomar las medidas adecuadas.

__wf_reserved_inherit
Fig. 1. Un robot juega al tres en raya utilizando la visión por ordenador para interpretar el tablero y realizar movimientos estratégicos.

De hecho, la visión por ordenador es fundamental para la mayoría de las tareas robóticas. Ayuda a los robots a detectar objetos y evitar obstáculos mientras se desplazan. Sin embargo, para ello no basta con ver el mundo; los robots también tienen que ser capaces de reaccionar con rapidez. En situaciones reales, incluso un ligero retraso puede provocar costosos errores. Modelos como Ultralytics YOLO11 permiten a los robots recopilar información en tiempo real y responder al instante, incluso en situaciones complejas o desconocidas.

Conocer Ultralytics YOLO11

Antes de adentrarnos en el modo en que YOLO11 puede integrarse en los sistemas robóticos, exploremos primero las principales características de YOLO11.

Los modelos YOLO de Ultralytics admiten varias tareas de visión por ordenador que ayudan a obtener información rápida y en tiempo real. En concreto, Ultralytics YOLO11 ofrece un rendimiento más rápido, menores costes computacionales y una mayor precisión. Por ejemplo, puede utilizarse para detectar objetos en imágenes y vídeos con gran precisión, lo que lo hace perfecto para aplicaciones en campos como la robótica, la sanidad y la fabricación. 

He aquí algunas características impactantes que hacen de YOLO11 una gran opción para la robótica:

  • Facilidad de implantación: Es fácil de implantar y se integra perfectamente en una amplia gama de plataformas de software y hardware.
  • Adaptabilidad: YOLO11 funciona bien en diferentes entornos y configuraciones de hardware, ofreciendo un rendimiento constante incluso en condiciones dinámicas.

Fácil de usar: la documentación y la interfaz de fácil comprensión de YOLO11 ayudan a reducir la curva de aprendizaje, lo que facilita su integración en sistemas robotizados.

__wf_reserved_inherit
Fig. 2. Ejemplo de análisis de la pose de personas en una imagen mediante YOLO11.

Exploración de las tareas de visión por ordenador que permite YOLO11

A continuación te mostramos algunas de las tareas de visión por ordenador que admite YOLO11: 

  • Detección de objetos: La capacidad de detección de objetos en tiempo real de YOLO11 permite a los robots identificar y localizar objetos dentro de su campo de visión al instante. Esto ayuda a los robots a evitar obstáculos, realizar una planificación dinámica de la trayectoria y lograr una navegación automatizada tanto en interiores como en exteriores.
  • Segmentación de instancias: Al identificar los límites y las formas exactas de los objetos individuales, YOLO11 equipa a los robots para realizar operaciones precisas de recogida y colocación y complejas tareas de ensamblaje.
  • Estimación de poses: El soporte de YOLO11 para la estimación de poses permite a los robots reconocer e interpretar los movimientos y gestos del cuerpo humano. Es crucial para que los robots colaborativos (cobots) trabajen con seguridad junto a los humanos.
  • Seguimiento de objetos: YOLO11 permite seguir objetos en movimiento a lo largo del tiempo, lo que lo hace ideal para aplicaciones relacionadas con la robótica autónoma que necesitan vigilar su entorno en tiempo real.
  • Clasificación de imágenes: YOLO11 puede clasificar objetos en imágenes, lo que permite a los robots categorizar artículos, detectar anomalías o tomar decisiones basadas en tipos de objetos, como la identificación de suministros médicos en entornos sanitarios.
__wf_reserved_inherit
Fig. 3. Tareas de visión por ordenador soportadas por YOLO11.

IA en aplicaciones robóticas: Desarrollado por YOLO11

Desde el aprendizaje inteligente hasta la automatización industrial, modelos como YOLO11 pueden ayudar a redefinir lo que pueden hacer los robots. Su integración en la robótica demuestra cómo los modelos de visión por ordenador están impulsando los avances en la automatización. Exploremos algunos ámbitos clave en los que YOLO11 puede tener un impacto significativo.

Enseñar a los robots mediante visión por ordenador 

La visión por ordenador se utiliza mucho en los robots humanoides, ya que les permite aprender observando su entorno. Modelos como YOLO11 pueden ayudar a mejorar este proceso al proporcionar detección avanzada de objetos y estimación de poses, lo que ayuda a los robots a interpretar con precisión las acciones y comportamientos humanos.

Analizando movimientos e interacciones sutiles en tiempo real, los robots pueden entrenarse para reproducir tareas humanas complejas. Esto les permite ir más allá de las rutinas preprogramadas y aprender tareas, como utilizar un mando a distancia o un destornillador, simplemente observando a una persona.

__wf_reserved_inherit
Fig. 4. Un robot que imita una acción humana.

Este tipo de aprendizaje puede ser útil en distintas industrias. Por ejemplo, en la agricultura, los robots pueden observar cómo los trabajadores humanos aprenden tareas como plantar, cosechar y gestionar los cultivos. Al copiar la forma en que los humanos realizan estas tareas, los robots pueden adaptarse a distintas condiciones agrícolas sin necesidad de programarse para cada situación.

Aplicaciones relacionadas con la robótica sanitaria

Del mismo modo, en la sanidad, la visión por ordenador es cada vez más importante. Por ejemplo, YOLO11 puede utilizarse en dispositivos médicos para ayudar a los cirujanos en procedimientos complejos. Con funciones como la detección de objetos y la segmentación de instancias, YOLO11 puede ayudar a los robots a detectar estructuras internas del cuerpo, manejar herramientas quirúrgicas y realizar movimientos precisos.

Aunque pueda parecer algo sacado de la ciencia ficción, investigaciones recientes demuestran la aplicación práctica de la visión por ordenador en procedimientos quirúrgicos. En un interesante estudio sobre disección robótica autónoma para colecistectomía (extirpación de la vesícula biliar), los investigadores integraron YOLO11 para la segmentación de tejidos (clasificación y separación de distintos tejidos en una imagen) y la detección de puntos clave de instrumentos quirúrgicos (identificación de puntos de referencia específicos en las herramientas). 

El sistema fue capaz de distinguir con precisión entre los distintos tipos de tejidos, incluso cuando éstos se deformaban (cambiaban de forma) durante la intervención, y se ajustó dinámicamente a estos cambios. Esto permitió a los instrumentos robóticos seguir trayectorias de disección (corte quirúrgico) precisas.

Fabricación inteligente y automatización industrial

Los robots capaces de recoger y colocar objetos desempeñan un papel fundamental en la automatización de las operaciones de fabricación y la optimización de las cadenas de suministro. Su velocidad y precisión les permiten realizar tareas con una intervención humana mínima, como identificar y clasificar artículos. 

Gracias a la precisa segmentación de instancias de YOLO11, los brazos robóticos pueden entrenarse para detectar y segmentar objetos que se mueven por una cinta transportadora, recogerlos con precisión y colocarlos en los lugares designados en función de su tipo y tamaño.

Por ejemplo, los fabricantes de automóviles más conocidos están utilizando robots basados en visión para ensamblar las distintas piezas de los coches, lo que mejora la velocidad y la precisión de la cadena de montaje. Los modelos de visión artificial como YOLO11 pueden permitir que estos robots trabajen junto a trabajadores humanos, garantizando una integración perfecta de los sistemas automatizados en entornos de producción dinámicos. Este avance puede dar lugar a tiempos de producción más rápidos, menos errores y productos de mayor calidad.

__wf_reserved_inherit
Fig. 5. Un brazo robótico basado en la visión ensamblando un coche.

Ventajas de integrar Ultralytics YOLO11 en robótica

YOLO11 ofrece varias ventajas clave que lo hacen ideal para su perfecta integración en sistemas robóticos autónomos. Estas son algunas de las principales ventajas:

  • Bajo latencia de inferencia: YOLO11 puede ofrecer predicciones muy precisas con baja latencia, incluso en entornos dinámicos.
  • Modelos ligeros: Diseñados para optimizar el rendimiento, los modelos ligeros de YOLO11 permiten a los robots más pequeños con menos potencia de procesamiento disponer de funciones de visión avanzadas sin sacrificar la eficacia.
  • Eficiencia energética: YOLO11 está diseñado para ahorrar energía, por lo que es ideal para robots alimentados por batería que necesitan conservar la energía mientras mantienen un alto rendimiento.

Limitaciones de la IA de visión en robótica

Aunque los modelos de visión por ordenador proporcionan potentes herramientas para la visión robótica, hay que tener en cuenta algunas limitaciones a la hora de integrarlos en sistemas robóticos del mundo real. Algunas de estas limitaciones son:

  • Recogida de datos costosa: El entrenamiento de modelos eficaces para tareas específicas de robots suele requerir conjuntos de datos amplios, diversos y bien etiquetados, cuya adquisición resulta costosa.
  • Variaciones ambientales: Los robots trabajan en entornos impredecibles, donde factores como las condiciones de iluminación o los fondos desordenados pueden afectar al rendimiento de los modelos de visión.
  • Problemas de calibración y alineación: Asegurarse de que los sistemas de visión están correctamente calibrados y alineados con el resto de sensores del robot es vital para un rendimiento preciso, y una alineación incorrecta puede provocar errores en la toma de decisiones.

El futuro de los avances en robótica e IA

Los sistemas de visión por ordenador no son sólo herramientas para los robots de hoy en día; son bloques de construcción para un futuro en el que los robots puedan operar de forma autónoma. Con sus capacidades de detección en tiempo real y su compatibilidad con múltiples tareas, son perfectos para la robótica de próxima generación.

De hecho, las tendencias actuales del mercado muestran que la visión por ordenador es cada vez más esencial en robótica. Los informes del sector destacan que la visión por ordenador es la segunda tecnología más utilizada en el mercado mundial de la robótica de IA. 

__wf_reserved_inherit
Fig. 6. Cuota de mercado mundial de robots de IA por tecnología.

Principales conclusiones

Gracias a su capacidad para procesar datos visuales en tiempo real, YOLO11 puede ayudar a los robots a detectar, identificar e interactuar con su entorno con mayor precisión. Esto supone una gran diferencia en campos como la fabricación, donde los robots pueden colaborar con los humanos, y la sanidad, donde pueden ayudar en cirugías complejas. 

A medida que la robótica siga avanzando, la integración de la visión por ordenador en estos sistemas será crucial para que los robots puedan realizar una amplia gama de tareas con mayor eficacia. El futuro de la robótica parece prometedor, con la IA y la visión por ordenador impulsando máquinas aún más inteligentes y adaptables.

Únase a nuestra comunidad y consulte nuestro repositorio de GitHub para obtener más información sobre los últimos avances en IA. Explore diversas aplicaciones de IA en sanidad y visión por ordenador en agricultura en nuestras páginas de soluciones. Consulte nuestros planes de licencias para crear sus propias soluciones de visión por ordenador.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles