Glosario

Visión por ordenador (CV)

¡Libera el potencial de la IA con la Visión por Computador! Explora su papel en la detección de objetos, la asistencia sanitaria, los coches autoconducidos y mucho más. Más información

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La Visión por Ordenador (VC) es un campo especializado dentro de la Inteligencia Artificial (IA) que permite a los ordenadores y sistemas obtener información significativa a partir de imágenes digitales, vídeos y otras entradas visuales. Esencialmente, su objetivo es reproducir la comprensión visual humana, permitiendo a las máquinas "ver", interpretar y tomar decisiones basadas en datos visuales. Esto implica procesar la información visual utilizando algoritmos complejos y modelos de aprendizaje profundo (DL) para reconocer objetos, comprender escenas y extraer ideas de alto nivel. A diferencia del simple procesamiento de imágenes, que se centra principalmente en mejorar o manipular los datos de la imagen (como ajustar el brillo o aplicar filtros), la visión por ordenador trata de comprender el contenido y el contexto de las imágenes.

Importancia en la IA y el aprendizaje automático

La Visión por Computador es fundamental para muchos sistemas modernos de IA y Aprendizaje Automático ( AM), ya que proporciona las capacidades necesarias para que las máquinas interactúen con el mundo físico y lo comprendan mediante la percepción visual. La llegada de técnicas como las Redes Neuronales Convolucionales (CNN), inspiradas en la corteza visual humana, ha revolucionado la VC. Estas redes permiten que los modelos aprendan automáticamente características jerárquicas a partir de grandes cantidades de datos visuales, lo que ha dado lugar a mejoras significativas en la precisión de diversas tareas de visión por ordenador. Este progreso permite aplicaciones sofisticadas que antes eran inalcanzables, haciendo de la VC una piedra angular del desarrollo actual de la IA y un motor clave para los casos de uso de la IA que transforman nuestro futuro.

Conceptos y tareas clave

La visión por ordenador abarca una amplia gama de tareas destinadas a extraer distintos tipos de información de los datos visuales. Algunas tareas básicas son:

Visión computerizada frente a campos relacionados

Es útil distinguir la Visión por Computador de las disciplinas relacionadas:

  • Procesamiento de Imágenes: Se centra en la manipulación de imágenes a un nivel inferior, a menudo como paso previo al CV. Las tareas incluyen la reducción del ruido, la mejora del contraste y el filtrado mediante bibliotecas como OpenCV. El procesamiento de imágenes modifica los píxeles, pero no necesariamente interpreta el contenido de la imagen. Lee más sobre las diferencias clave entre Visión por Computador y Procesamiento de Imágenes.
  • Visión Artificial (VM): Aunque se solapa con la VC, la VM se refiere normalmente a la aplicación de la tecnología de visión en entornos industriales para la inspección automatizada, el control de procesos y el guiado de robots. Los sistemas de VM suelen funcionar en entornos controlados con iluminación y configuraciones de cámara específicas, centrándose en la fiabilidad y la velocidad para tareas específicas como la inspección de calidad en la fabricación. Más sobre Visión Artificial.

Tecnologías y marcos

El desarrollo de aplicaciones de visión por ordenador depende de varias herramientas, bibliotecas y marcos de trabajo:

  • Bibliotecas: OpenCV (Open Source Computer Vision Library) es una biblioteca fundacional que ofrece una amplia colección de algoritmos para el procesamiento de imágenes y tareas clásicas de CV. Otras bibliotecas son Pillow para la manipulación de imágenes en Python y Scikit-image para algoritmos de procesamiento de imágenes.
  • Marcos de aprendizaje profundo: PyTorch y TensorFlow son los principales marcos para construir y entrenar modelos de aprendizaje profundo, incluidos los utilizados en CV.
  • Modelos: Los modelos más avanzados, como YOLO (You Only Look Once), proporcionan una detección eficaz de objetos en tiempo real. Arquitecturas como ResNet son las columnas vertebrales habituales, y los Transformadores de Visión (ViT) representan una clase más reciente de modelos que están ganando protagonismo. Compara el rendimiento de distintos modelosYOLO .
  • Plataformas: Herramientas como Ultralytics HUB agilizan el proceso de formación, despliegue y gestión de modelos CV, ofreciendo funciones como la formación en la nube y la gestión de conjuntos de datos. Otras plataformas como Roboflow y Weights & Biases ofrecen herramientas complementarias para la anotación de datos y el seguimiento de experimentos.

Aplicaciones en el mundo real

Las aplicaciones de la visión por ordenador son cada vez más frecuentes en diversos sectores:

Leer todo