Neural Processing Unit (NPU)
Scopri come una Neural Processing Unit (NPU) accelera l'AI. Impara a distribuire Ultralytics YOLO26 su NPU per un edge computing e un'inferenza efficienti e a basso consumo.
Una Neural Processing Unit (NPU) è un circuito hardware specializzato progettato specificamente per accelerare l'esecuzione di algoritmi di intelligenza artificiale e machine learning. A differenza dei processori di uso generale, le NPU sono progettate con un'architettura che gestisce nativamente le complesse operazioni matriciali parallele centrali per i modelli di deep learning. Eseguendo questi calcoli con estrema efficienza, una NPU riduce drasticamente il consumo energetico migliorando significativamente la inference latency. Questo le rende una componente essenziale dei moderni telefoni cellulari, laptop e dispositivi IoT specializzati dove è fondamentale distribuire modelli complessi in modo efficiente senza un rapido consumo della batteria.
Link to this sectionNPU a confronto con altri processori#
Per capire il valore di una NPU, è utile distinguerla da altri comuni acceleratori hardware nel panorama dell'AI:
- Central Processing Unit (CPU): Il "cervello" di uso generale di un computer. Sebbene in grado di eseguire codice di machine learning, le CPU gestiscono le attività in sequenza, rendendole lente e inefficienti per le pesanti moltiplicazioni matriciali richieste dai moderni modelli di visione.
- Graphics Processing Unit (GPU): Progettate per l'elaborazione parallela, le GPU sono eccezionali nel gestire massicci carichi di lavoro di deep learning. Tuttavia, consumano molta energia e generano un calore considerevole, rendendole più adatte all'addestramento nel cloud rispetto all'edge computing alimentato a batteria.
- Tensor Processing Unit (TPU): Un circuito integrato specifico per l'applicazione sviluppato da Google per il machine learning. Sebbene simile nel concetto a una NPU, le TPU sono generalmente associate a massicci rack di server di cloud computing, mentre le NPU sono solitamente integrate direttamente nei System-on-Chips (SoCs) dei consumatori.
Link to this sectionApplicazioni reali delle NPU#
L'ascesa della NPU ha sbloccato la capacità di eseguire artificial intelligence (AI) direttamente sui dispositivi degli utenti senza fare affidamento su una costante connettività cloud.
- Smartphone e visione mobile: I moderni dispositivi mobili sfruttano pesantemente le NPU interne, come l'Apple Neural Engine o la Qualcomm Hexagon NPU, per alimentare la fotografia computazionale, il riconoscimento facciale in tempo reale e la traduzione locale di testi. Elaborando i dati delle immagini direttamente sul dispositivo, preservano la durata della batteria e garantiscono la data privacy.
- Laptop abilitati all'AI: Gli avanzati processori per PC ora presentano NPU integrate per gestire attività in background come la sfocatura dello sfondo e la correzione dello sguardo durante le video conferencing senza sovraccaricare la CPU principale, consentendo agli utenti di gestire più attività senza intoppi.
- Implementazioni di Edge AI: Le telecamere di sorveglianza intelligenti e la robotica utilizzano NPU specializzate, come la Google Coral Edge TPU o Intel hardware integrato, per eseguire l'object detection istantanea direttamente alla fonte. Questo elimina i colli di bottiglia della larghezza di banda e consente un processo decisionale in frazioni di secondo.
Link to this sectionUtilizzo delle NPU con Ultralytics YOLO#
Per gli sviluppatori che desiderano sfruttare le NPU, distribuire modelli di computer vision è diventato incredibilmente semplice. Utilizzando il potente modello Ultralytics YOLO26, puoi esportare la tua rete addestrata in formati ottimizzati per vari acceleratori hardware. Per semplificare l'intero ciclo di vita, la Ultralytics Platform fornisce strumenti robusti per la gestione dei dataset nel cloud, l'annotazione automatizzata e la distribuzione di modelli ottimizzati su praticamente qualsiasi ambiente di model deployment.
Quando lavori in locale, puoi utilizzare integrazioni di framework come ONNX Runtime, PyTorch ExecuTorch o TensorFlow Lite per puntare alla NPU. Di seguito è riportato un rapido esempio in Python che mostra come esportare un modello YOLO nel formato OpenVINO, che delega senza problemi i carichi di lavoro computazionali alle NPU Intel per un'real-time inference accelerata.
from ultralytics import YOLO
# Load the highly recommended Ultralytics YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Export to OpenVINO with int8 quantization for optimal NPU performance
model.export(format="openvino", int8=True)
# Run highly efficient, accelerated inference on the edge device
results = model("path/to/environment_image.jpg")





