Glosario

Convolución

Descubra cómo la convolución potencia la IA en la visión por ordenador, permitiendo tareas como la detección de objetos, el reconocimiento de imágenes y la obtención de imágenes médicas con precisión.

La convolución es una operación fundamental en el aprendizaje profundo (deep learning, DL), especialmente en el ámbito de la visión por ordenador (computer vision, CV). Es el componente básico de las redes neuronales convolucionales (CNN) y permite a los modelos aprender de forma automática y eficiente características jerárquicas a partir de datos en forma de cuadrícula, como las imágenes. El proceso consiste en deslizar un pequeño filtro, conocido como núcleo, sobre una imagen de entrada para producir mapas de características que resalten patrones específicos como bordes, texturas o formas. Este método se inspira en la organización de la corteza visual animal y es muy eficaz para tareas en las que las relaciones espaciales entre puntos de datos son importantes.

Cómo funciona la convolución

En esencia, una convolución es una operación matemática que fusiona dos conjuntos de información. En el contexto de una CNN, combina los datos de entrada (los valores de los píxeles de una imagen) con un núcleo. El núcleo es una pequeña matriz de pesos que actúa como detector de características. Este núcleo se desliza por la altura y la anchura de la imagen de entrada y, en cada posición, realiza una multiplicación por elementos con la parte de la imagen que se solapa. Los resultados se suman para crear un único píxel en el mapa de características de salida. Este proceso de deslizamiento se repite en toda la imagen.

Utilizando distintos núcleos, una CNN puede aprender a detectar una amplia gama de características. Las primeras capas pueden aprender a reconocer patrones sencillos, como bordes y colores, mientras que las capas más profundas pueden combinar estas características básicas para identificar estructuras más complejas, como ojos, ruedas o texto. Esta capacidad de construir una jerarquía de características visuales es lo que confiere a las CNN su potencia en tareas de visión. El proceso es eficiente desde el punto de vista computacional gracias a dos principios clave:

  • Parámetros compartidos: Se utiliza el mismo núcleo en toda la imagen, lo que reduce drásticamente el número total de parámetros aprendibles en comparación con una red totalmente conectada. Este concepto de uso eficiente de los parámetros también ayuda al modelo a generalizar mejor.
  • Localidad espacial: La operación asume que los píxeles cercanos entre sí están más fuertemente relacionados que los distantes, un fuerte sesgo inductivo que es muy eficaz para las imágenes naturales.

Importancia en el aprendizaje profundo

La convolución es la piedra angular de la visión por ordenador moderna. Modelos como Ultralytics YOLO utilizan ampliamente capas convolucionales en sus arquitecturas troncales para una potente extracción de características. Esto permite una amplia gama de aplicaciones, desde la detección de objetos y la segmentación de imágenes hasta tareas más complejas. La eficiencia y eficacia de la convolución la han convertido en el método de referencia para el procesamiento de imágenes y otros datos espaciales, formando la base de muchas arquitecturas de vanguardia detalladas en recursos como la historia de los modelos de visión.

Aplicaciones reales

  • Análisis de imágenes médicas: En la IA para la atención sanitaria, las CNN utilizan convoluciones para analizar escáneres médicos como resonancias magnéticas o tomografías computarizadas. Los núcleos pueden entrenarse para detectar las texturas y formas específicas características de los tumores u otras anomalías, lo que ayuda a los radiólogos a realizar diagnósticos más rápidos y precisos. Puede leer más sobre estos avances en revistas como Radiology: Artificial Intelligence.
  • Vehículos autónomos: Los coches autónomos utilizan CNN para percibir su entorno. Las convoluciones procesan la información de las cámaras en tiempo real para identificar peatones, otros vehículos, carriles y señales de tráfico. Esto permite al sistema del coche construir una comprensión global de su entorno y navegar con seguridad, como se ve en la tecnología desarrollada por empresas como Waymo.

Convolución y conceptos afines

Resulta útil distinguir la convolución de otras operaciones de redes neuronales:

  • Capas totalmente conectadas: En una capa totalmente conectada, cada neurona está conectada a todas las neuronas de la capa anterior. En el caso de las imágenes, esto es muy ineficiente, ya que ignora la estructura espacial y da lugar a un número masivo de parámetros. La convolución, con su conectividad local y la compartición de parámetros, es mucho más escalable y más adecuada para los datos de imágenes.
  • Transformadores de Visión (ViT): A diferencia de la detección de características locales de las CNN, los transformadores de visión utilizan un mecanismo de autoatención para modelar las relaciones globales entre distintos parches de imagen. Aunque potentes, los ViT suelen requerir grandes conjuntos de datos para aprender estas relaciones desde cero, mientras que el sesgo inductivo de las convoluciones los hace más eficientes desde el punto de vista de los datos. Los modelos híbridos, como RT-DETR, pretenden combinar los puntos fuertes de ambos enfoques.

Herramientas y formación

Varios marcos de aprendizaje profundo facilitan la implementación y el entrenamiento de modelos que utilizan la convolución. Bibliotecas como PyTorch(sitio oficial de PyTorch) y TensorFlow(sitio oficial de TensorFlow) proporcionan herramientas sólidas para crear CNN. Las API de alto nivel, como Keras, simplifican aún más el desarrollo.

Para agilizar la experiencia, plataformas como Ultralytics HUB permiten a los usuarios gestionar conjuntos de datos, realizar el entrenamiento de modelos y desplegar potentes modelos como YOLO11 con facilidad. Comprender conceptos básicos como la convolución, el tamaño del núcleo, el intervalo, el relleno y el campo receptivo resultante es crucial para un entrenamiento eficaz del modelo y el diseño de la arquitectura.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles