Libere el potencial de la IA con la visión por ordenador. Explore su papel en la detección de objetos, la asistencia sanitaria, los coches autónomos y mucho más. Más información
La visión por ordenador (VC) es un campo de la inteligencia artificial (IA) que capacita a los ordenadores para interpretar y comprender el mundo visual. Utilizando imágenes digitales de cámaras, vídeos y modelos de aprendizaje profundo, las máquinas pueden identificar y clasificar objetos con precisión y luego reaccionar ante lo que "ven". El objetivo es capacitar a los ordenadores para replicar la visión humana, una tarea que implica procesar y analizar enormes cantidades de datos visuales para darles sentido. Como campo, ha crecido rápidamente gracias a los avances en el aprendizaje profundo y la disponibilidad de grandes conjuntos de datos.
La visión por ordenador funciona aplicando algoritmos de aprendizaje automático (machine learning, ML) a los datos visuales. En lugar de programarse explícitamente para reconocer un objeto, un modelo de CV aprende a identificar patrones a partir de miles o millones de imágenes etiquetadas. Por ejemplo, para entrenar a un modelo a reconocer gatos, se le alimentaría con innumerables imágenes de gatos hasta que pueda aprender a distinguir las características de un gato por sí mismo.
La CV moderna se basa en gran medida en modelos de aprendizaje profundo, en particular las redes neuronales convolucionales (CNN). Una CNN es un tipo de red neuronal muy eficaz para procesar datos de imágenes. Funciona aplicando filtros (o núcleos) a una imagen para crear mapas de características que resaltan características importantes como bordes, texturas y formas. Estas redes son la base de muchas tareas habituales de visión por ordenador y permiten a las máquinas analizar la información visual con una precisión cada vez mayor.
Aunque están estrechamente relacionados, la visión por ordenador y el procesamiento de imágenes no son lo mismo. El procesamiento de imágenes es un subconjunto de la VC que se centra en la manipulación de imágenes digitales para mejorarlas o extraer información útil. Consiste en operaciones como el enfoque, el desenfoque o el filtrado de una imagen. En cambio, la visión por ordenador va un paso más allá y pretende interpretar y comprender el contenido de la imagen. Por ejemplo, el procesamiento de imágenes puede utilizarse para mejorar la calidad de una foto, mientras que la visión por ordenador se emplearía para identificar a las personas, los objetos y la escena dentro de esa foto. Puede obtener más información sobre esta distinción en esta descripción detallada del procesamiento digital de imágenes.
La visión por ordenador engloba varias tareas clave que permiten a las máquinas analizar e interpretar datos visuales:
Las aplicaciones de visión por ordenador son cada vez más frecuentes en diversos sectores:
El desarrollo y despliegue de modelos de visión por ordenador es más fácil gracias a diversas herramientas y marcos de trabajo. Bibliotecas como PyTorch (visite el sitio oficial de PyTorch) y TensorFlow (visite el sitio oficial de TensorFlow) son fundamentales para crear modelos. Bibliotecas de código abierto como OpenCV ofrecen una amplia colección de funciones para la visión por ordenador en tiempo real.
Plataformas como Ultralytics HUB agilizan todo el ciclo de vida de un proyecto de CV, desde la gestión de conjuntos de datos y la formación de modelos personalizados hasta la implantación. El uso de formatos estandarizados como ONNX también ayuda a garantizar la interoperabilidad entre distintos marcos. A medida que estas tecnologías maduren, seguirán impulsando la innovación en todos los sectores.