Descubre cómo una unidad de procesamiento neuronal (NPU) acelera la IA. Descubre cómo implementar Ultralytics en NPU para lograr un procesamiento periférico y una inferencia eficientes y de bajo consumo.
Una unidad de procesamiento neuronal (NPU) es un circuito de hardware especializado diseñado específicamente para acelerar la ejecución de algoritmos de inteligencia artificial y aprendizaje automático. A diferencia de los procesadores de uso general, las NPU están diseñadas con una arquitectura que gestiona de forma nativa las complejas operaciones matriciales paralelas fundamentales para los modelos de aprendizaje profundo. Al ejecutar estos cálculos con una eficiencia extrema, una NPU reduce drásticamente el consumo de energía al tiempo que mejora significativamente la latencia de inferencia. Esto las convierte en un componente esencial de los teléfonos móviles, ordenadores portátiles y dispositivos IoT especializados modernos, en los que es fundamental implementar modelos complejos de manera eficiente sin que se agote rápidamente la batería.
Para comprender el valor de una NPU, conviene distinguirla de otros aceleradores de hardware habituales en el ámbito de la IA :
El auge de la NPU ha permitido ejecutar inteligencia artificial (IA) directamente en los dispositivos de los usuarios sin necesidad de una conexión constante a la nube.
Para los desarrolladores que deseen aprovechar las NPU, la implementación de modelos de visión artificial se ha vuelto increíblemente sencilla. Mediante el potente modelo Ultralytics , puedes exportar tu red entrenada a formatos optimizados para diversos aceleradores de hardware. Para optimizar todo este ciclo de vida, la Ultralytics ofrece herramientas robustas para la gestión de conjuntos de datos en la nube, la anotación automatizada y la implementación de modelos optimizados en prácticamente cualquier entorno de implementación de modelos.
Cuando se trabaja en un entorno local, se pueden utilizar integraciones de marcos como ONNX , PyTorch o TensorFlow para aprovechar la NPU. A continuación se muestra un breve Python que ilustra cómo exportar un YOLO al OpenVINO , el cual delega de forma fluida las cargas de trabajo de cálculo a Intel para una inferencia en tiempo real acelerada.
from ultralytics import YOLO
# Load the highly recommended Ultralytics YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Export to OpenVINO with int8 quantization for optimal NPU performance
model.export(format="openvino", int8=True)
# Run highly efficient, accelerated inference on the edge device
results = model("path/to/environment_image.jpg")
Comience su viaje con el futuro del aprendizaje automático