Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Red Neuronal Convolucional (CNN)

Descubra cómo las redes neuronales convolucionales (CNN) revolucionan la visión artificial, impulsando la IA en la atención médica, los coches autónomos y mucho más.

Una red neuronal convolucional (CNN) es una clase especializada de arquitectura de arquitectura de aprendizaje profundo (deep learning, DL) procesar datos con una topología cuadriculada, como las imágenes digitales. Inspiradas en la estructura biológica de la corteza corteza visual animal, las CNN son capaces de aprender aprender automáticamente jerarquías espaciales de características. A diferencia de las redes neuronales tradicionales, que tratan los datos de entrada como una las CNN conservan las relaciones espaciales entre píxeles, lo que las convierte en la tecnología fundamental de la mayoría de las aplicaciones aplicaciones modernas de visión por ordenador (VC). En Estas redes, que filtran eficazmente los datos de entrada para extraer patrones significativos, impulsan avances que van desde el reconocimiento facial en los teléfonos inteligentes hasta las herramientas de diagnóstico en los hospitales. reconocimiento facial en los teléfonos inteligentes análisis de imágenes médicas.

Cómo funcionan las redes neuronales convolucionales

La eficacia de una CNN reside en su capacidad para reducir las imágenes a una forma más fácil de procesar, sin perder características que son críticas para obtener una buena predicción. Esto se consigue mediante una serie de capas especializadas:

  1. Capa convolucional: Es el elemento central. Emplea un conjunto de filtros aprendibles, a menudo llamados kernels, que se deslizan sobre la imagen de entrada. Este proceso matemático, conocido como convolución, produce mapas de características que resaltan patrones como bordes, curvas o texturas. Puede visualizar este proceso mediante explicaciones interactivas de CNN para ver cómo los filtros extraen datos visuales.
  2. Función de activación: Tras la convolución, se aplica una función no lineal a los mapas de características. La más común es la función ReLU (unidad lineal rectificada), que que sustituye los valores negativos de los píxeles por cero. Esto introduce la no linealidad, lo que permite a la red aprender relaciones complejas en lugar de combinaciones lineales. complejas en lugar de combinaciones lineales.
  3. Capa de agrupamiento: También conocida como "downsampling", esta capa reduce la dimensionalidad del mapa de características. características. Técnicas como la agrupación máxima seleccionan las características en una región, lo que reduce la carga computacional y ayuda a generalizar el modelo evitando el el sobreajuste.
  4. Capa totalmente conectada: En las etapas finales, las características de alto nivel se aplanan y se introducen en una red neuronal (NN) estándar. red neuronal (NN) estándar. Esta capa realiza la clasificación final o la tarea de regresión basándose en las características extraídas por las capas anteriores.

Importancia y aplicaciones reales

Las CNN han revolucionado el campo de la inteligencia artificial al eliminar la necesidad de extraer características manualmente. Su capacidad para aprender rasgos distintivos directamente directamente de los datos de entrenamiento diversos sectores.

  • Detección de objetos para sistemas autónomos: En el sector de la automoción, las CNN son fundamentales para que los automóviles autónomos perciban su su entorno. Modelos como YOLO11 utilizan una CNN CNN para detect peatones, señales de tráfico y otros vehículos en tiempo real con gran precisión.
  • Diagnóstico sanitario: Las CNN ayudan a los radiólogos a identificar anomalías en las exploraciones médicas. En ejemplo, los modelos de aprendizaje profundo pueden analizar radiografías o resonancias magnéticas para detect tumores o fracturas más rápido que la inspección humana. humana. Investigaciones de los Institutos Nacionales de Salud (NIH) demuestra cómo estas herramientas automatizadas mejoran significativamente la coherencia del diagnóstico.
  • Venta al por menor y gestión de inventarios: Sistemas de caja automatizados y gestión inteligente de inventarios se basan en las CNN para reconocer productos en las estanterías, track las existencias y evitar pérdidas. grandes minoristas.

Diferenciar las CNN de conceptos afines

Aunque a menudo se utilizan indistintamente con términos generales de IA, las CNN tienen características distintas en comparación con otras arquitecturas:

  • CNN frente a redes neuronales estándar: Una red neuronal tradicional totalmente conectada conecta cada neurona de entrada neurona de entrada a cada neurona de salida. Cuando se aplica a imágenes, esto conduce a un número masivo de parámetros y a una pérdida de estructura espacial. estructura espacial. En cambio, las CNN comparten los parámetros (utilizan el mismo filtro en toda la imagen), lo que las hace muy eficientes. toda la imagen), lo que las hace muy eficaces para los datos visuales.
  • CNN frente a transformadores de visión (ViT): Mientras que las CNN se centran en características locales mediante convolución, los Transformadores de Visión (ViT ) procesan las imágenes imágenes como secuencias de mecanismo de autoatención para captar el contexto global. Los ViT suelen requerir grandes conjuntos de datos para entrenarse eficazmente, mientras que las CNN tienen un fuerte "sesgo inductivo" que les permite obtener buenos resultados incluso con conjuntos de datos pequeños. que hace que funcionen bien incluso con conjuntos de datos pequeños. Los modelos híbridos suelen combinar ambos, como se ve en arquitecturas como RT-DETR.

Ejemplo de aplicación

Las bibliotecas modernas permiten aprovechar fácilmente la potencia de las CNN. El sitio ultralytics proporciona acceso a los modelos más avanzados, como YOLO11, que presenta columnas vertebrales CNN optimizadas para una inferencia rápida.

El siguiente ejemplo muestra cómo cargar un modelo preentrenado basado en CNN y ejecutar una predicción:

from ultralytics import YOLO

# Load a YOLO11 model, which uses a highly optimized CNN architecture
model = YOLO("yolo11n.pt")

# Run object detection on an image to identify features and objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the prediction results
results[0].show()

Herramientas y marcos para el desarrollo

El desarrollo de CNN se apoya en un sólido ecosistema de herramientas de código abierto. Los investigadores e ingenieros suelen utilizar marcos de trabajo como PyTorch o TensorFlow para construir arquitecturas personalizadas desde cero. Estas bibliotecas proporcionan las operaciones tensor de bajo nivel necesarias para la convolución y la retropropagación.

Para quienes buscan agilizar el ciclo de vida de los proyectos de visión por computador, desde la gestión de datos hasta la implantación, la Ultralytics Platform ofrece una solución completa. Simplifica los complejos flujos de trabajo de los modelos y permite que los equipos se centren en CNN para resolver problemas empresariales en lugar de gestionar la infraestructura. Además, el despliegue de estos modelos en dispositivos periféricos se ve facilitada por formatos como ONNX y TensorRTgarantizando un alto rendimiento en producción.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora