¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glosario

Convolución

Aprenda cómo la convolución impulsa la IA en la visión artificial, permitiendo tareas como la detección de objetos, el reconocimiento de imágenes y las imágenes médicas con precisión.

La convolución es una operación fundamental en el aprendizaje profundo (DL), especialmente dentro del dominio de la visión artificial (CV). Sirve como el bloque de construcción primario para las Redes Neuronales Convolucionales (CNN), permitiendo a los modelos aprender de forma automática y eficiente características jerárquicas a partir de datos tipo cuadrícula, como las imágenes. El proceso implica deslizar un pequeño filtro, conocido como kernel, sobre una imagen de entrada para producir mapas de características que resaltan patrones específicos como bordes, texturas o formas. Este método está inspirado en la organización de la corteza visual animal y es muy eficaz para tareas en las que las relaciones espaciales entre los puntos de datos son importantes.

¿Cómo funciona la convolución?

En esencia, una convolución es una operación matemática que fusiona dos conjuntos de información. En el contexto de una CNN, combina los datos de entrada (los valores de los píxeles de una imagen) con un kernel. El kernel es una pequeña matriz de pesos que actúa como detector de características. Este kernel se desliza a lo largo y ancho de la imagen de entrada y, en cada posición, realiza una multiplicación elemento por elemento con la porción superpuesta de la imagen. Los resultados se suman para crear un único píxel en el mapa de características de salida. Este proceso de deslizamiento se repite en toda la imagen.

Al utilizar diferentes kernels, una CNN puede aprender a detectar una amplia gama de características. Las primeras capas pueden aprender a reconocer patrones simples como bordes y colores, mientras que las capas más profundas pueden combinar estas características básicas para identificar estructuras más complejas como ojos, ruedas o texto. Esta capacidad de construir una jerarquía de características visuales es lo que da a las CNN su poder en las tareas de visión. El proceso se hace computacionalmente eficiente a través de dos principios clave:

  • Compartición de parámetros: El mismo kernel se utiliza en toda la imagen, lo que reduce drásticamente el número total de parámetros aprendibles en comparación con una red totalmente conectada. Este concepto de uso eficiente de parámetros también ayuda al modelo a generalizar mejor.
  • Localidad Espacial: La operación asume que los píxeles cercanos entre sí están más fuertemente relacionados que los distantes, un fuerte sesgo inductivo que es altamente efectivo para imágenes naturales.

Importancia en el aprendizaje profundo

La convolución es la piedra angular de la visión artificial moderna. Modelos como Ultralytics YOLO utilizan capas convolucionales extensivamente en sus arquitecturas de backbone para una potente extracción de características. Esto permite una amplia gama de aplicaciones, desde la detección de objetos y la segmentación de imágenes hasta tareas más complejas. La eficiencia y la eficacia de la convolución la han convertido en el método de referencia para el procesamiento de imágenes y otros datos espaciales, formando la base de muchas arquitecturas de última generación detalladas en recursos como la historia de los modelos de visión.

Aplicaciones en el mundo real

  • Análisis de imágenes médicas: En la IA para la atención médica, las CNN utilizan convoluciones para analizar exploraciones médicas como resonancias magnéticas o tomografías computarizadas. Los kernels se pueden entrenar para detectar las texturas y formas específicas características de los tumores u otras anomalías, lo que ayuda a los radiólogos a realizar diagnósticos más rápidos y precisos. Puede leer más sobre estos avances en revistas como Radiology: Artificial Intelligence.
  • Vehículos Autónomos: Los coches autónomos se basan en CNN para percibir su entorno. Las convoluciones procesan la entrada de las cámaras en tiempo real para identificar peatones, otros vehículos, carriles de tráfico y señales de tráfico. Esto permite que el sistema del coche construya una comprensión completa de su entorno y navegue de forma segura, como se ve en la tecnología desarrollada por empresas como Waymo.

Convolución vs. Conceptos relacionados

Es útil distinguir la convolución de otras operaciones de redes neuronales:

  • Capas Totalmente Conectadas: En una capa totalmente conectada, cada neurona está conectada a todas las neuronas de la capa anterior. Para las imágenes, esto es muy ineficiente, ya que ignora la estructura espacial y conduce a un número masivo de parámetros. La convolución, con su conectividad local y el uso compartido de parámetros, es mucho más escalable y se adapta mejor a los datos de imagen.
  • Vision Transformers (ViT): A diferencia de la detección de características locales de las CNN, los Vision Transformers utilizan un mecanismo de autoatención para modelar las relaciones globales entre diferentes parches de la imagen. Si bien son potentes, los ViT suelen requerir conjuntos de datos más grandes para aprender estas relaciones desde cero, mientras que el sesgo inductivo de las convoluciones los hace más eficientes en cuanto a datos. Los modelos híbridos, como RT-DETR, tienen como objetivo combinar las fortalezas de ambos enfoques.

Herramientas y formación

La implementación y el entrenamiento de modelos que utilizan la convolución se ven facilitados por varios marcos de aprendizaje profundo. Bibliotecas como PyTorch (sitio oficial de PyTorch) y TensorFlow (sitio oficial de TensorFlow) proporcionan herramientas sólidas para la construcción de CNN. Las API de alto nivel como Keras simplifican aún más el desarrollo.

Para una experiencia optimizada, plataformas como Ultralytics HUB permiten a los usuarios administrar conjuntos de datos, realizar el entrenamiento de modelos e implementar modelos potentes como YOLO11 con facilidad. La comprensión de conceptos básicos como la convolución, el tamaño del kernel, el stride, el padding y el campo receptivo resultante es crucial para el entrenamiento de modelos y el diseño de la arquitectura.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles