Neural Processing Unit (NPU)
Aprende cómo una unidad de procesamiento neuronal (NPU) acelera la IA. Descubre cómo implementar Ultralytics YOLO26 en NPUs para lograr una inferencia y computación de borde eficiente y de bajo consumo.
Una Unidad de Procesamiento Neuronal (NPU) es un circuito de hardware especializado diseñado específicamente para acelerar la ejecución de algoritmos de inteligencia artificial y aprendizaje automático. A diferencia de los procesadores de propósito general, las NPU están diseñadas con una arquitectura que gestiona de forma nativa las complejas operaciones matriciales en paralelo fundamentales para los modelos de deep learning. Al ejecutar estos cálculos con una eficiencia extrema, una NPU reduce drásticamente el consumo de energía mientras mejora significativamente la inference latency. Esto las convierte en un componente esencial de los teléfonos móviles, portátiles y dispositivos IoT modernos, donde desplegar modelos complejos de manera eficiente sin agotar rápidamente la batería es crítico.
Link to this sectionNPU frente a otros procesadores#
Para entender el valor de una NPU, ayuda distinguirla de otros aceleradores de hardware comunes en el panorama de la IA:
- Central Processing Unit (CPU): El "cerebro" de propósito general de un ordenador. Aunque es capaz de ejecutar código de aprendizaje automático, las CPU gestionan las tareas de forma secuencial, lo que las hace lentas e ineficientes para la multiplicación de matrices pesada que requieren los modelos de visión modernos.
- Graphics Processing Unit (GPU): Diseñadas para el procesamiento en paralelo, las GPU son excepcionales para gestionar cargas de trabajo masivas de deep learning. Sin embargo, consumen mucha energía y generan un calor considerable, lo que las hace más adecuadas para el entrenamiento en la nube que para la edge computing alimentada por batería.
- Tensor Processing Unit (TPU): Un circuito integrado de aplicación específica desarrollado por Google para el aprendizaje automático. Aunque es similar en concepto a una NPU, las TPU generalmente se asocian con bastidores de servidores de cloud computing masivos, mientras que las NPU suelen estar integradas directamente en sistemas en chip (SoC) de consumo.
Link to this sectionAplicaciones reales de las NPU#
El auge de la NPU ha desbloqueado la capacidad de ejecutar artificial intelligence (AI) directamente en los dispositivos de los usuarios sin depender de una conectividad constante a la nube.
- Smartphones And Mobile Vision: Los dispositivos móviles modernos aprovechan en gran medida las NPU internas, como el Apple Neural Engine o la Qualcomm Hexagon NPU, para potenciar la fotografía computacional, el reconocimiento facial en tiempo real y la traducción de texto local. Al procesar los datos de imagen en el dispositivo, conservan la duración de la batería y garantizan la data privacy.
- AI-Enabled Laptops: Los procesadores para PC avanzados cuentan ahora con NPU integradas para gestionar tareas en segundo plano como el desenfoque de fondo y la corrección de la mirada durante video conferencing sin sobrecargar la CPU principal, lo que permite a los usuarios realizar multitarea sin problemas.
- Edge AI Deployments: Las cámaras de vigilancia inteligentes y la robótica utilizan NPU especializadas, como la Google Coral Edge TPU o Intel hardware integrado, para realizar object detection instantánea directamente en la fuente. Esto elimina los cuellos de botella del ancho de banda y permite una toma de decisiones en fracciones de segundo.
Link to this sectionUso de NPU con Ultralytics YOLO#
Para los desarrolladores que buscan aprovechar las NPU, desplegar modelos de visión artificial se ha vuelto increíblemente sencillo. Usando el potente modelo Ultralytics YOLO26, puedes exportar tu red entrenada a formatos optimizados para varios aceleradores de hardware. Para agilizar todo este ciclo de vida, Ultralytics Platform ofrece herramientas robustas para la gestión de conjuntos de datos en la nube, anotación automatizada y despliegue de modelos optimizados en prácticamente cualquier entorno de model deployment.
Al trabajar de forma local, puedes utilizar integraciones de framework como ONNX Runtime, PyTorch ExecuTorch o TensorFlow Lite para dirigirte a la NPU. A continuación, se muestra un ejemplo rápido en Python que demuestra cómo exportar un modelo YOLO al OpenVINO format, el cual delega de forma fluida las cargas de trabajo informáticas a las NPU de Intel para una real-time inference acelerada.
from ultralytics import YOLO
# Load the highly recommended Ultralytics YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Export to OpenVINO with int8 quantization for optimal NPU performance
model.export(format="openvino", int8=True)
# Run highly efficient, accelerated inference on the edge device
results = model("path/to/environment_image.jpg")





