Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Red Neuronal Convolucional (CNN)

Descubra cómo las redes neuronales convolucionales (CNN) impulsan la visión artificial moderna. Aprenda sobre capas, aplicaciones y cómo ejecutar Ultralytics para obtener IA en tiempo real.

Una red neuronal convolucional (CNN) es una arquitectura de aprendizaje profundo especializada diseñada para procesar datos con una topología similar a una cuadrícula, sobre todo imágenes digitales. Inspiradas en la estructura biológica de la corteza visual, las CNN tienen la capacidad única de preservar las relaciones espaciales dentro de los datos de entrada. A diferencia de las redes neuronales tradicionales, que aplanan una imagen en una larga lista de números, las CNN analizan pequeñas regiones superpuestas de una imagen para aprender automáticamente jerarquías de características, desde simples bordes y texturas hasta formas y objetos complejos. Esta capacidad las convierte en la tecnología fundamental detrás de los modernos sistemas de visión por computadora (CV).

Cómo funcionan las redes neuronales convolucionales

El poder de una CNN reside en su capacidad para reducir una imagen compleja a una forma más fácil de procesar sin perder características fundamentales para obtener una buena predicción. Esto se consigue mediante una cadena de capas diferenciadas que transforman el volumen de entrada en una clase o valor de salida:

  • Capa de convolución: Este es el componente básico principal. Utiliza un conjunto de filtros (o núcleos) que se deslizan sobre la imagen de entrada como una linterna. En cada posición, el filtro realiza una operación matemática llamada convolución, creando un mapa de características que resalta patrones específicos, como líneas horizontales o degradados de color.
  • Función de activación: Después de la convolución, se aplica una función no lineal a la salida. La opción más común es la ReLU (unidad lineal rectificada), que convierte los valores de píxeles negativos en cero. Esto introduce la no linealidad, lo que permite a la red aprender patrones complejos más allá de las simples relaciones lineales.
  • Capa de agrupación: También conocida como submuestreo, esta capa reduce la dimensionalidad de los mapas de características. Técnicas como la agrupación máxima conservan solo las características más importantes (los valores más altos) de una región, lo que reduce la carga computacional y ayuda a evitar el sobreajuste.
  • Capa totalmente conectada: en la etapa final, las características procesadas se aplanan y se introducen en una red neuronal estándar (NN). Esta capa utiliza las características de alto nivel identificadas por las capas anteriores para realizar una clasificación o predicción final, como «gato» o «perro».

Aplicaciones en el mundo real

Las CNN han transformado las industrias al automatizar tareas visuales con una precisión sobrehumana .

  • Diagnóstico médico: En el ámbito sanitario, las CNN ayudan a los radiólogos a identificar anomalías en las exploraciones médicas más rápidamente que el ojo humano. Por ejemplo, los modelos de aprendizaje profundo analizan las resonancias magnéticas y las tomografías computarizadas para detect signos detect de tumores o fracturas. Las investigaciones relacionadas con la IA enradiología destacan cómo estas herramientas mejoran la consistencia y la rapidez del diagnóstico.
  • Sistemas autónomos: Los coches autónomos dependen en gran medida de las CNN para percibir su entorno. Modelos como YOLO26 utilizan eficientes estructuras CNN para realizar la detección de objetos en tiempo real, identificando peatones, señales de tráfico y otros vehículos para tomar decisiones de conducción en fracciones de segundo.

CNN frente a transformadores de visión (ViT)

Aunque las CNN han sido durante mucho tiempo el estándar para las tareas de visión, ha surgido una arquitectura más nueva llamada Vision Transformer (ViT).

  • Las CNN procesan imágenes utilizando características locales y son muy eficientes en conjuntos de datos más pequeños debido a su «sesgo inductivo» (asumen que los píxeles cercanos están relacionados). Destacan en escenarios que requieren inferencia en tiempo real en dispositivos periféricos.
  • Los ViT dividen las imágenes en fragmentos y los procesan utilizando mecanismos de autoatención global. Esto les permite capturar dependencias de largo alcance en una imagen, pero normalmente requiere conjuntos de datos masivos y más potencia de cálculo para entrenarlos de manera eficaz.

Ejemplo de aplicación

Las bibliotecas modernas facilitan el uso de modelos basados en CNN. El ultralytics El paquete proporciona acceso a modelos de última generación como YOLO26, que cuentan con arquitecturas CNN altamente optimizadas para una inferencia rápida.

El siguiente ejemplo muestra cómo cargar un modelo CNN preentrenado y ejecutar una predicción:

from ultralytics import YOLO

# Load a YOLO26 model, which uses an advanced CNN architecture
model = YOLO("yolo26n.pt")

# Run inference on an image to identify objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the prediction results
results[0].show()

Herramientas para el desarrollo

El desarrollo de CNN cuenta con el respaldo de un sólido ecosistema de herramientas de código abierto. Los ingenieros suelen utilizar marcos como PyTorch o TensorFlow para crear arquitecturas personalizadas. Estas bibliotecas proporcionan las tensor de bajo nivel necesarias para la convolución y la retropropagación.

Para los equipos que buscan optimizar el ciclo de vida de los proyectos de visión artificial, desde la recopilación de datos hasta la implementación, Ultralytics ofrece una solución integral. Simplifica los flujos de trabajo complejos, lo que permite a los desarrolladores centrarse en aplicar las CNN para resolver problemas empresariales en lugar de gestionar la infraestructura. Además, los modelos se pueden exportar a formatos como ONNX o TensorRT para una implementación de alto rendimiento en dispositivos periféricos .

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora