Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Red Neuronal Convolucional (CNN)

Descubra cómo las redes neuronales convolucionales (CNN) revolucionan la visión artificial, impulsando la IA en la atención médica, los coches autónomos y mucho más.

Una Red Neuronal Convolucional (CNN) es un tipo especializado de red neuronal (NN) que es muy eficaz para procesar datos con una topología similar a una cuadrícula, como las imágenes. Inspiradas en la corteza visual humana, las CNN aprenden de forma automática y adaptativa jerarquías espaciales de características a partir de los datos de entrada. Esto las convierte en la arquitectura fundamental para la mayoría de las tareas modernas de visión artificial (CV), donde han logrado resultados de última generación en todo, desde la clasificación de imágenes hasta la detección de objetos.

Cómo funcionan las CNN

A diferencia de una red neuronal estándar, donde cada neurona de una capa está conectada a cada neurona de la siguiente, las CNN utilizan una operación matemática especial llamada convolución. Esto permite que la red aprenda características en un campo receptivo local, preservando las relaciones espaciales entre los píxeles.

Una arquitectura CNN típica consta de varias capas clave:

  1. Capa convolucional: Este es el bloque de construcción central donde un filtro, o kernel, se desliza sobre la imagen de entrada para producir mapas de características. Estos mapas resaltan patrones como bordes, esquinas y texturas. El tamaño de estos filtros y los patrones que detectan se aprenden durante el entrenamiento del modelo.
  2. Capa de activación: Después de cada convolución, se aplica una función de activación como ReLU para introducir no linealidad, lo que permite al modelo aprender patrones más complejos.
  3. Capa de Agrupación (Submuestreo): Esta capa reduce las dimensiones espaciales (ancho y alto) de los mapas de características, lo que disminuye la carga computacional y ayuda a que las características detectadas sean más robustas a los cambios de posición y orientación. Un artículo clásico sobre el tema es ImageNet Classification with Deep Convolutional Neural Networks.
  4. Capa Totalmente Conectada: Después de varias capas convolucionales y de pooling, las características de alto nivel se aplanan y se pasan a una capa totalmente conectada, que realiza la clasificación basándose en las características aprendidas.

CNN vs. otras arquitecturas

Si bien las CNN son un tipo de modelo de aprendizaje profundo, difieren significativamente de otras arquitecturas.

  • Redes Neuronales (NNs): Una NN estándar trata los datos de entrada como un vector plano, perdiendo toda la información espacial. Las CNNs conservan esta información, lo que las hace ideales para el análisis de imágenes.
  • Vision Transformers (ViTs): A diferencia de las CNN, que tienen un fuerte sesgo inductivo para la localidad espacial, ViTs tratar una imagen como una secuencia de parches y usar un autoatención mecanismo para aprender relaciones globales. Los ViT a menudo requieren más datos para entrenar, pero pueden sobresalir en tareas donde el contexto de largo alcance es importante. Muchos modelos modernos, como RT-DETR, utilice un enfoque híbrido, combinando una CNN backbone con una base Transformer detection head.

Aplicaciones en el mundo real

Las CNN son la fuerza impulsora detrás de innumerables aplicaciones del mundo real:

Herramientas y frameworks

El desarrollo y la implementación de CNN están respaldados por potentes herramientas y frameworks:

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora