Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Convolución

Aprenda cómo la convolución impulsa la IA en la visión artificial, permitiendo tareas como la detección de objetos, el reconocimiento de imágenes y las imágenes médicas con precisión.

La convolución es una operación matemática especializada que constituye el elemento fundamental de los sistemas modernos de visión por ordenador (VC). sistemas modernos de visión por ordenador (VC ). En el contexto de la inteligencia artificial (IA), la convolución permite a los modelos procesar datos en forma de cuadrícula, como imágenes, filtrando sistemáticamente las entradas para extraer patrones significativos. patrones significativos. A diferencia de los algoritmos tradicionales, que requieren el establecimiento manual de reglas, la convolución permite que una red neuronal aprenda automáticamente patrones espaciales. red neuronal aprenda automáticamente jerarquías de características espaciales -desde bordes y texturas simples hasta formas complejas de objetos-, imitando los procesos biológicos observados en la corteza visual de los seres humanos. biológicos observados en la corteza visual del cerebro.

Mecánica de la convolución

La operación consiste en deslizar una pequeña matriz de números, conocida como o filtro, sobre una imagen de entrada. En cada En cada posición, el núcleo realiza una multiplicación por elementos con los valores de los píxeles superpuestos y suma los resultados para producir un único píxel de salida. producir un único píxel de salida. Este proceso genera un mapa de características, que resalta las áreas en las que se específicos.

Los parámetros clave que definen cómo se comporta una convolución incluyen:

  • Tamaño del núcleo: Las dimensiones del filtro (por ejemplo, 3x3 o 5x5), que determinan el área de la entrada considerada a la vez, a menudo denominada campo receptivo.
  • Paso: El tamaño del paso que el filtro se mueve a través de la imagen. A mayor stride da como resultado unas dimensiones de salida, lo que reduce el muestreo de los datos.
  • Relleno: La adición de píxeles de borde (normalmente ceros) a la entrada para controlar el tamaño espacial de la salida, un concepto detallado en la documentaciónPyTorch .

Relevancia en el aprendizaje profundo

La convolución es el motor principal de las las redes neuronales convolucionales (CNN). Su importancia radica en dos propiedades principales: compartir parámetros y espacial. Al utilizar los mismos modelo (kernel) en toda la imagen, la red sigue siendo la red sigue siendo eficiente desde el punto de vista computacional y capaz de invarianza de traslación, lo que significa que puede reconocer un objeto independientemente del lugar del fotograma en el que aparezca. Esta eficiencia permite arquitecturas como YOLO11 realizar inferencias en tiempo real en hardware diverso, desde potentes GPU hasta dispositivos de de recursos limitados.

Aplicaciones en el mundo real

La utilidad de la convolución se extiende a prácticamente todos los sectores que utilizan datos visuales:

  • Análisis de imágenes médicas: En AI en sanidad, la convolución permite a los algoritmos escanear MRI y CT para identificar identificar anomalías mínimas. Por ejemplo, se pueden entrenar núcleos específicos para resaltar las texturas irregulares asociadas a tumores en estadios tempranos, lo que ayuda a los radiólogos a realizar diagnósticos precisos.
  • Navegación autónoma: Los coches autónomos dependen en gran medida de la convolución para la detección de objetos y segmentación de imágenes. El sistema procesa vídeo para distinguir entre carriles, peatones y señales de tráfico, lo que permite a la para tomar decisiones de conducción seguras en fracciones de segundo.

Convolución frente a capas totalmente conectadas

Es importante distinguir la convolución de las capas totalmente conectadas (densas). En una capa cada neurona de entrada se conecta a cada neurona de salida, lo que resulta caro desde el punto de vista computacional e ignora la estructura espacial de las imágenes. espacial de las imágenes. Por el contrario, la convolución preserva las relaciones espaciales y reduce drásticamente el número de parámetros, lo que evita el sobreajuste en imágenes de gran tamaño. parámetros, lo que evita el sobreajuste en datos dimensiones. Mientras que las capas densas suelen utilizarse para la clasificación final, las capas convolucionales se encargan del trabajo pesado de la extracción de características. extracción de características.

Aplicación de la convolución con Ultralytics

Puede visualizar la arquitectura convolucional de los detectores de objetos modernos utilizando la función ultralytics paquete. El siguiente código carga un paquete YOLO11 modelo e imprime su estructura, revelando la Conv2d capas utilizadas para el tratamiento.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Print the model architecture to observe Conv2d layers
# These layers perform the convolution operations to extract features
print(model.model)

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora