Descubra cómo las redes neuronales convolucionales (CNN) impulsan la visión artificial moderna. Aprenda sobre capas, aplicaciones y cómo ejecutar Ultralytics para obtener IA en tiempo real.
Una red neuronal convolucional (CNN) es una arquitectura de aprendizaje profundo especializada diseñada para procesar datos con una topología similar a una cuadrícula, sobre todo imágenes digitales. Inspiradas en la estructura biológica de la corteza visual, las CNN tienen la capacidad única de preservar las relaciones espaciales dentro de los datos de entrada. A diferencia de las redes neuronales tradicionales, que aplanan una imagen en una larga lista de números, las CNN analizan pequeñas regiones superpuestas de una imagen para aprender automáticamente jerarquías de características, desde simples bordes y texturas hasta formas y objetos complejos. Esta capacidad las convierte en la tecnología fundamental detrás de los modernos sistemas de visión por computadora (CV).
El poder de una CNN reside en su capacidad para reducir una imagen compleja a una forma más fácil de procesar sin perder características fundamentales para obtener una buena predicción. Esto se consigue mediante una cadena de capas diferenciadas que transforman el volumen de entrada en una clase o valor de salida:
Las CNN han transformado las industrias al automatizar tareas visuales con una precisión sobrehumana .
Aunque las CNN han sido durante mucho tiempo el estándar para las tareas de visión, ha surgido una arquitectura más nueva llamada Vision Transformer (ViT).
Las bibliotecas modernas facilitan el uso de modelos basados en CNN. El ultralytics El paquete proporciona acceso
a modelos de última generación como YOLO26, que cuentan con arquitecturas CNN altamente optimizadas para una inferencia rápida.
El siguiente ejemplo muestra cómo cargar un modelo CNN preentrenado y ejecutar una predicción:
from ultralytics import YOLO
# Load a YOLO26 model, which uses an advanced CNN architecture
model = YOLO("yolo26n.pt")
# Run inference on an image to identify objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the prediction results
results[0].show()
El desarrollo de CNN cuenta con el respaldo de un sólido ecosistema de herramientas de código abierto. Los ingenieros suelen utilizar marcos como PyTorch o TensorFlow para crear arquitecturas personalizadas. Estas bibliotecas proporcionan las tensor de bajo nivel necesarias para la convolución y la retropropagación.
Para los equipos que buscan optimizar el ciclo de vida de los proyectos de visión artificial, desde la recopilación de datos hasta la implementación, Ultralytics ofrece una solución integral. Simplifica los flujos de trabajo complejos, lo que permite a los desarrolladores centrarse en aplicar las CNN para resolver problemas empresariales en lugar de gestionar la infraestructura. Además, los modelos se pueden exportar a formatos como ONNX o TensorRT para una implementación de alto rendimiento en dispositivos periféricos .