Descubra el poder de la detección de objetos: identifique y localice objetos en imágenes o vídeos con modelos de vanguardia como YOLO. Explore las aplicaciones del mundo real.
La detección de objetos es una tarea fundamental de la visión por ordenador (VC ) que consiste en identificar y localizar uno o varios objetos dentro de una imagen o un vídeo. El objetivo no es sólo clasificar los objetos, sino también determinar su posición, normalmente dibujando un rectángulo alrededor de cada uno de ellos. Esta tecnología es la piedra angular de muchas aplicaciones avanzadas de inteligencia artificial (IA), ya que permite a las máquinas percibir e interpretar su entorno físico con un alto grado de comprensión.
Los modelos de detección de objetos suelen construirse mediante aprendizaje profundo (deep learning, DL), en concreto redes neuronales convolucionales (Convolutional Neural Networks, CNN). El proceso consiste en introducir una imagen en la red, que a continuación genera una lista de objetos detectados, cada uno con una etiqueta de clase (por ejemplo, "persona", "coche", "perro"), una puntuación de confianza y las coordenadas de su cuadro delimitador.
Las arquitecturas modernas de detección de objetos constan de dos partes principales: una columna vertebral para extraer características de la imagen de entrada y un cabezal de detección para predecir los recuadros delimitadores y las clases. Estas arquitecturas suelen clasificarse en detectores de una o dos etapas.
Es importante distinguir la detección de objetos de otras tareas relacionadas con la visión por ordenador:
La detección de objetos es una tecnología transformadora que se utiliza en muchos sectores.
El desarrollo y despliegue de modelos de detección de objetos implica un rico ecosistema de herramientas y técnicas.