Guía para profundizar en la detección de objetos en 2025

Abirami Vina

6 min leer

6 de febrero de 2025

Infórmese sobre la detección de objetos, su importancia en la IA y cómo modelos como YOLO11 están transformando sectores como el de los coches autónomos, la sanidad y la seguridad.

Muchas industrias están integrando rápidamente soluciones de inteligencia artificial (IA) en sus operaciones. Entre las muchas tecnologías de IA disponibles hoy en día, la visión por ordenador es una de las más populares. La visión por ordenador es una rama de la IA que ayuda a los ordenadores a ver y comprender el contenido de imágenes y vídeos, igual que hacen los humanos. Hace posible que las máquinas reconozcan objetos, identifiquen patrones y den sentido a lo que están viendo. 

Se calcula que el valor del mercado mundial de la visión por ordenador ascenderá a 175.720 millones de dólares en 2032. La visión por ordenador engloba diversas tareas que permiten a los sistemas de IA de visión analizar e interpretar datos visuales. Una de las tareas esenciales y más utilizadas de la visión por ordenador es la detección de objetos. 

La detección de objetos se centra en localizar y clasificar objetos en datos visuales. Por ejemplo, si se muestra a un ordenador la imagen de una vaca, puede detectarla y dibujar un rectángulo a su alrededor. Esta capacidad es útil en aplicaciones reales como el control de animales, los coches autónomos y la vigilancia. 

Entonces, ¿cómo puede realizarse la detección de objetos? Una forma es mediante modelos de visión por ordenador. Por ejemplo, Ultralytics YOLO11 es un modelo de visión por ordenador que admite tareas de visión por ordenador como la detección de objetos. 

En esta guía, exploraremos la detección de objetos y cómo funciona. También hablaremos de algunas aplicaciones reales de la detección de objetos y de Ultralytics YOLO11.

__wf_reserved_inherit
Fig. 1. Utilización de la detección de objetos de YOLO11 para vigilar el ganado.

¿Qué es la detección de objetos? 

La detección de objetos es una tarea de visión por ordenador que identifica y localiza objetos en imágenes o vídeos. Responde a dos preguntas clave: ¿Qué objetos hay en la imagen? y ¿Dónde se encuentran?

Se puede pensar en la detección de objetos como un proceso que implica dos pasos clave. La primera, la clasificación de objetos, permite al sistema reconocer y etiquetar objetos, como identificar un gato, un coche o una persona basándose en patrones aprendidos. El segundo, la localización, determina la posición del objeto dibujando un cuadro delimitador a su alrededor, que indica dónde aparece en la imagen. Juntos, estos pasos permiten a las máquinas detectar y comprender objetos en una escena.

El aspecto de la detección de objetos que la hace única es su capacidad para reconocer objetos y determinar su ubicación con precisión. Otras tareas de visión por ordenador se centran en objetivos diferentes.

Por ejemplo, la clasificación de imágenes asigna una etiqueta a toda una imagen. Por su parte, la segmentación de imágenes permite conocer los distintos elementos a nivel de píxel. Por otro lado, la detección de objetos combina el reconocimiento con la localización. Esto la hace especialmente útil para tareas como el recuento de múltiples objetos en tiempo real.

__wf_reserved_inherit
Fig. 2. Comparación de tareas de visión por ordenador.

Reconocimiento de objetos frente a detección de objetos

Al explorar varios términos de visión por ordenador, puede que le parezca que el reconocimiento de objetos y la detección de objetos son intercambiables, pero tienen propósitos diferentes. Una buena forma de entender la diferencia es analizar la detección y el reconocimiento de caras.

La detección de caras es un tipo de detección de objetos. Identifica la presencia de una cara en una imagen y marca su ubicación mediante un cuadro delimitador. Responde a la pregunta: "¿Dónde está la cara en la imagen?". Esta tecnología se utiliza habitualmente en las cámaras de los teléfonos inteligentes que enfocan automáticamente las caras o en las cámaras de seguridad que detectan la presencia de una persona.

En cambio, el reconocimiento facial es una forma de reconocimiento de objetos. No se limita a detectar una cara, sino que identifica de quién es mediante el análisis de rasgos únicos y su comparación con una base de datos. Responde a la pregunta: "¿Quién es esta persona?". Esta es la tecnología que hay detrás del desbloqueo de tu teléfono con Face ID o de los sistemas de seguridad de los aeropuertos que verifican las identidades.

En pocas palabras, la detección de objetos los encuentra y localiza, mientras que el reconocimiento de objetos los clasifica e identifica. 

__wf_reserved_inherit
Fig. 3. Detección de objetos frente a reconocimiento de objetos. Imagen del autor.

Muchos modelos de detección de objetos, como YOLO11, están diseñados para detectar caras, pero no para reconocerlas. YOLO11 puede identificar eficazmente la presencia de una cara en una imagen y dibujar un recuadro alrededor de ella, lo que lo hace útil para aplicaciones como sistemas de vigilancia, control de multitudes y etiquetado automático de fotos. Sin embargo, no puede determinar de quién es la cara. YOLO11 puede integrarse con modelos específicamente entrenados para el reconocimiento facial, como Facenet o DeepFace, para permitir tanto la detección como la identificación en un único sistema.

Cómo funciona la detección de objetos

Antes de explicar cómo funciona la detección de objetos, veamos cómo analiza una imagen un ordenador. En lugar de ver una imagen como nosotros, un ordenador la descompone en una cuadrícula de pequeños cuadrados llamados píxeles. Cada píxel contiene información sobre el color y el brillo que los ordenadores pueden procesar para interpretar los datos visuales.

Para dar sentido a estos píxeles, los algoritmos los agrupan en regiones significativas en función de la forma, el color y la proximidad entre ellos. Los modelos de detección de objetos, como YOLO11, pueden reconocer patrones o características en estos grupos de píxeles. 

Por ejemplo, un coche autónomo no ve a un peatón como nosotros, sino que detecta formas y patrones que coinciden con las características de un peatón. Estos modelos se basan en un amplio entrenamiento con conjuntos de datos de imágenes etiquetadas, lo que les permite aprender las características distintivas de objetos como coches, señales de tráfico y personas.

Un modelo típico de detección de objetos consta de tres partes fundamentales: columna vertebral, cuello y cabeza. La columna vertebral extrae características importantes de una imagen. El cuello procesa y refina estas características, mientras que la cabeza se encarga de predecir la ubicación de los objetos y clasificarlos.

Afinar las detecciones y presentar los resultados

Una vez realizadas las detecciones iniciales, se aplican técnicas de posprocesamiento para mejorar la precisión y filtrar las predicciones redundantes. Por ejemplo, se eliminan los recuadros superpuestos para que sólo se conserven las detecciones más relevantes. También se asignan puntuaciones de confianza (valores numéricos que representan el grado de certeza del modelo de que un objeto detectado pertenece a una determinada clase) a cada objeto detectado para indicar la certeza del modelo en sus predicciones.

Por último, el resultado se presenta con cuadros delimitadores dibujados alrededor de los objetos detectados, junto con sus etiquetas de clase y puntuaciones de confianza previstas. Estos resultados pueden utilizarse en aplicaciones reales.

Modelos populares de detección de objetos 

Hoy en día existen muchos modelos de visión por ordenador, y algunos de los más populares son los modelos YOLO de Ultralytics. Son conocidos por su velocidad, precisión y versatilidad. A lo largo de los años, estos modelos se han hecho más rápidos, precisos y capaces de manejar una gama más amplia de tareas. El lanzamiento de Ultralytics YOLOv5 facilitó el despliegue con frameworks como PyTorch, permitiendo a más personas utilizar Vision AI avanzada sin necesidad de profundos conocimientos técnicos.

Sobre esta base, Ultralytics YOLOv8 introdujo nuevas funciones como la segmentación de instancias, la estimación de poses y la clasificación de imágenes. Ahora, YOLO11 lleva las cosas aún más lejos con un mejor rendimiento en múltiples tareas. Con un 22% menos de parámetros que YOLOv8m, YOLO11m consigue una precisión media superior (mAP) en el conjunto de datos COCO. En pocas palabras, YOLO11 puede reconocer objetos con mayor precisión utilizando menos recursos, lo que lo hace más rápido y fiable.

Tanto si es un experto en IA como si acaba de empezar, YOLO11 le ofrece una solución potente y fácil de usar para aplicaciones de visión por ordenador.

Entrenamiento personalizado de un modelo de detección de objetos

El entrenamiento de modelos de IA de visión consiste en ayudar a los ordenadores a reconocer y comprender imágenes y vídeos. Sin embargo, el entrenamiento puede llevar mucho tiempo. En lugar de empezar desde cero, el aprendizaje por transferencia acelera las cosas utilizando modelos preentrenados que ya reconocen patrones comunes.

Por ejemplo, YOLO11 ya ha sido entrenado en el conjunto de datos COCO, que contiene un variado conjunto de objetos cotidianos. Este modelo preentrenado puede personalizarse para detectar objetos específicos que no estén incluidos en el conjunto de datos original. 

Para realizar un entrenamiento personalizado de YOLO11, necesita un conjunto de datos etiquetados que contenga imágenes de los objetos que desea detectar. Por ejemplo, si quiere crear un modelo para identificar distintos tipos de fruta en una tienda de comestibles, deberá crear un conjunto de datos con imágenes etiquetadas de manzanas, plátanos, naranjas, etc. Una vez preparado el conjunto de datos, se puede entrenar YOLO11, ajustando parámetros como el tamaño del lote, la tasa de aprendizaje y las épocas para optimizar el rendimiento.

Con este planteamiento, las empresas pueden entrenar a YOLO11 para que detecte cualquier cosa, desde piezas defectuosas en la fabricación hasta especies salvajes en proyectos de conservación, adaptando el modelo a sus necesidades exactas.

Aplicaciones de la detección de objetos

A continuación, echemos un vistazo a algunos de los casos de uso real de la detección de objetos y cómo está transformando diversas industrias.

Detección de peligros para la conducción autónoma

Los coches autoconducidos utilizan tareas de visión por ordenador, como la detección de objetos, para circular con seguridad y evitar obstáculos. Esta tecnología les ayuda a reconocer peatones, otros vehículos, baches y peligros de la carretera, lo que les permite comprender mejor su entorno. Pueden tomar decisiones rápidas y moverse con seguridad entre el tráfico analizando constantemente su entorno.

__wf_reserved_inherit
Fig. 4. Ejemplo de detección de objetos para detectar baches con YOLO11.

Análisis de imágenes médicas en sanidad

Las técnicas de imagen médica como los rayos X, las resonancias magnéticas, los TAC y los ultrasonidos crean imágenes muy detalladas del cuerpo humano para ayudar a diagnosticar y tratar enfermedades. Estas exploraciones producen grandes cantidades de datos que los médicos, como radiólogos y patólogos, deben analizar cuidadosamente para detectar enfermedades. Sin embargo, revisar cada imagen en detalle puede llevar mucho tiempo, y los expertos humanos a veces pueden pasar por alto detalles debido al cansancio o a la falta de tiempo.

Los modelos de detección de objetos como YOLO11 pueden ayudar a identificar automáticamente características clave en las exploraciones médicas, como órganos, tumores o anomalías, con gran precisión. Los modelos entrenados a medida pueden resaltar las áreas de interés con recuadros delimitadores, lo que ayuda a los médicos a centrarse más rápidamente en los posibles problemas. Esto reduce la carga de trabajo, mejora la eficiencia y proporciona información rápida.

__wf_reserved_inherit
Fig. 5. Análisis de imágenes médicas con YOLO11.

Aumento de la seguridad con detección de personas y anomalías

El seguimiento de objetos es una tarea de visión por ordenador compatible con YOLO11, que permite la supervisión en tiempo real y mejoras de seguridad. Se basa en la detección de objetos mediante la identificación de objetos y el seguimiento continuo de su movimiento a lo largo de los fotogramas. Esta tecnología se utiliza ampliamente en sistemas de vigilancia para mejorar la seguridad en diversos entornos.

Por ejemplo, en escuelas y guarderías, el seguimiento de objetos puede ayudar a vigilar a los niños y evitar que se alejen. En aplicaciones de seguridad, desempeña un papel clave en la detección de intrusos en zonas restringidas, la supervisión de multitudes para detectar aglomeraciones o comportamientos sospechosos, y el envío de alertas en tiempo real cuando se detecta una actividad no autorizada. Al seguir la pista de los objetos mientras se mueven, los sistemas de seguimiento basados en YOLO11 mejoran la seguridad, automatizan la vigilancia y permiten reaccionar con mayor rapidez ante posibles amenazas.

Ventajas e inconvenientes de la detección de objetos

He aquí algunas de las principales ventajas que la detección de objetos puede aportar a diversos sectores:

  • Automatización: La detección de objetos puede ayudar a reducir la necesidad de supervisión humana en tareas como la monitorización de grabaciones de CCTV.
  • Funciona con otros modelos de IA: Puede integrarse con sistemas de reconocimiento facial, reconocimiento de acciones y seguimiento para mejorar la precisión y la funcionalidad.
  • Procesamiento en tiempo real: Muchos modelos de detección de objetos, como YOLO11, son rápidos y eficaces, lo que los hace ideales para aplicaciones en tiempo real que requieren resultados instantáneos. 

Aunque estas ventajas ponen de relieve el impacto de la detección de objetos en los distintos casos de uso, también es importante tener en cuenta los retos que plantea su aplicación. He aquí algunos de los principales retos:

  • Protección de datos: El uso de datos visuales, especialmente en ámbitos sensibles como la vigilancia o la asistencia sanitaria, puede plantear problemas de privacidad y seguridad.
  • Oclusión: La oclusión en la detección de objetos se produce cuando los objetos están parcialmente bloqueados u ocultos a la vista, lo que dificulta que el modelo los detecte y clasifique con precisión.
  • Costes de cálculo: los modelos de alto rendimiento suelen requerir potentes GPU (unidades de procesamiento gráfico) para su procesamiento, lo que encarece la implantación en tiempo real.

Principales conclusiones

La detección de objetos es una herramienta revolucionaria de la visión por ordenador que ayuda a las máquinas a detectar y localizar objetos en imágenes y vídeos. Se utiliza en sectores que van desde la conducción autónoma de automóviles hasta la asistencia sanitaria, facilitando las tareas y haciéndolas más seguras y eficaces. Con modelos más recientes como YOLO11, las empresas pueden crear fácilmente modelos personalizados de detección de objetos para crear aplicaciones especializadas de visión por ordenador. 

Aunque existen algunos retos, como los problemas de privacidad y los objetos ocultos a la vista, la detección de objetos es una tecnología fiable. Su capacidad para automatizar tareas, procesar datos visuales en tiempo real e integrarse con otras herramientas de Vision AI la convierten en una parte esencial de las innovaciones de vanguardia.

Para obtener más información, visite nuestro repositorio de GitHub y participe en nuestra comunidad. Explore innovaciones en sectores como la IA en los coches autoconducidos y la visión por ordenador en la agricultura en nuestras páginas de soluciones. Echa un vistazo a nuestras opciones de licencia yolo y da vida a tus proyectos de Vision AI. 🚀

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles