Visión por ordenador (CV)

Libere el potencial de la IA con la visión por ordenador. Explore su papel en la detección de objetos, la asistencia sanitaria, los coches autónomos y mucho más. Más información

La visión por ordenador (VC) es un campo de la inteligencia artificial (IA) que capacita a los ordenadores para interpretar y comprender el mundo visual. Utilizando imágenes digitales de cámaras, vídeos y modelos de aprendizaje profundo, las máquinas pueden identificar y clasificar objetos con precisión y luego reaccionar ante lo que "ven". El objetivo es capacitar a los ordenadores para replicar la visión humana, una tarea que implica procesar y analizar enormes cantidades de datos visuales para darles sentido. Como campo, ha crecido rápidamente gracias a los avances en el aprendizaje profundo y la disponibilidad de grandes conjuntos de datos.

Cómo funciona la visión por ordenador

La visión por ordenador funciona aplicando algoritmos de aprendizaje automático (machine learning, ML) a los datos visuales. En lugar de programarse explícitamente para reconocer un objeto, un modelo de CV aprende a identificar patrones a partir de miles o millones de imágenes etiquetadas. Por ejemplo, para entrenar a un modelo a reconocer gatos, se le alimentaría con innumerables imágenes de gatos hasta que pueda aprender a distinguir las características de un gato por sí mismo.

La CV moderna se basa en gran medida en modelos de aprendizaje profundo, en particular las redes neuronales convolucionales (CNN). Una CNN es un tipo de red neuronal muy eficaz para procesar datos de imágenes. Funciona aplicando filtros (o núcleos) a una imagen para crear mapas de características que resaltan características importantes como bordes, texturas y formas. Estas redes son la base de muchas tareas habituales de visión por ordenador y permiten a las máquinas analizar la información visual con una precisión cada vez mayor.

Visión por ordenador frente a procesamiento de imágenes

Aunque están estrechamente relacionados, la visión por ordenador y el procesamiento de imágenes no son lo mismo. El procesamiento de imágenes es un subconjunto de la VC que se centra en la manipulación de imágenes digitales para mejorarlas o extraer información útil. Consiste en operaciones como el enfoque, el desenfoque o el filtrado de una imagen. En cambio, la visión por ordenador va un paso más allá y pretende interpretar y comprender el contenido de la imagen. Por ejemplo, el procesamiento de imágenes puede utilizarse para mejorar la calidad de una foto, mientras que la visión por ordenador se emplearía para identificar a las personas, los objetos y la escena dentro de esa foto. Puede obtener más información sobre esta distinción en esta descripción detallada del procesamiento digital de imágenes.

Tareas clave en visión por ordenador

La visión por ordenador engloba varias tareas clave que permiten a las máquinas analizar e interpretar datos visuales:

Detección de objetos: Consiste en identificar y localizar objetos en una imagen o un vídeo. Un modelo como Ultralytics YOLO dibuja un cuadro delimitador alrededor de cada objeto detectado y le asigna una etiqueta de clase.
Clasificación de imágenes: Esta tarea consiste en asignar una única etiqueta a toda una imagen a partir de un conjunto predefinido de categorías. Por ejemplo, clasificar una imagen como que contiene un "gato" o un "perro".
Segmentación de imágenes: A diferencia de la detección de objetos, la segmentación clasifica cada píxel de una imagen. Proporciona una comprensión mucho más detallada del contenido de la imagen. Las subtareas incluyen la segmentación por instancias y la segmentación semántica.
Estimación de la pose: Se utiliza para determinar la posición y orientación de una persona u objeto en el espacio. Se utiliza mucho en robótica, realidad aumentada y análisis de la actividad humana.
Seguimiento de objetos: Esta tarea consiste en seguir uno o varios objetos a lo largo del tiempo en una secuencia de vídeo. Es crucial para aplicaciones como la vigilancia y la navegación autónoma.

Aplicaciones reales

Las aplicaciones de visión por ordenador son cada vez más frecuentes en diversos sectores:

Vehículos autónomos: La CV es fundamental para los coches autónomos, ya que les permite percibir su entorno, detectar peatones y otros vehículos, leer las señales de tráfico y navegar con seguridad. Empresas como Waymo y Tesla dependen en gran medida de los sistemas de CV. Más información sobre soluciones de IA en automoción.
Sanidad: En el análisis de imágenes médicas, la CV ayuda a los radiólogos a detectar anomalías como tumores o fracturas en radiografías, tomografías computarizadas y resonancias magnéticas. También se utiliza en cirugía robótica y monitorización de pacientes. Más información sobre su impacto en radiología: Inteligencia Artificial. También puede descubrir cómo se utiliza YOLO11 para la detección de tumores.
Seguridad y vigilancia: CV impulsa sistemas de vigilancia automatizados para detectar intrusiones, seguir a personas y analizar el comportamiento de multitudes. Consulte nuestra guía sobre cómo crear un sistema de alarma de seguridad.
Comercio minorista: Las aplicaciones incluyen la gestión de inventarios a través de la monitorización de estanterías, el análisis del comportamiento de los clientes y los sistemas de caja sin cajeros como los de Amazon Go.
Fabricación: La CV se utiliza para el control de calidad, la detección de defectos, la supervisión de líneas de montaje y la automatización robótica. Descubra cómo crear soluciones de fabricación inteligentes con YOLO11.
Agricultura: Esta tecnología permite la agricultura de precisión mediante la supervisión de cultivos, la detección de enfermedades, la identificación de malas hierbas y la cosecha automatizada. Más información sobre la supervisión de la salud de los cultivos en tiempo real.

Herramientas y marcos

El desarrollo y despliegue de modelos de visión por ordenador es más fácil gracias a diversas herramientas y marcos de trabajo. Bibliotecas como PyTorch (visite el sitio oficial de PyTorch) y TensorFlow (visite el sitio oficial de TensorFlow) son fundamentales para crear modelos. Bibliotecas de código abierto como OpenCV ofrecen una amplia colección de funciones para la visión por ordenador en tiempo real.

Plataformas como Ultralytics HUB agilizan todo el ciclo de vida de un proyecto de CV, desde la gestión de conjuntos de datos y la formación de modelos personalizados hasta la implantación. El uso de formatos estandarizados como ONNX también ayuda a garantizar la interoperabilidad entre distintos marcos. A medida que estas tecnologías maduren, seguirán impulsando la innovación en todos los sectores.