Erfahren Sie, wie eine Neural Processing Unit (NPU) KI beschleunigt. Entdecken Sie, wie Sie Ultralytics auf NPUs einsetzen können, um effizientes Edge-Computing und Inferenz mit geringem Stromverbrauch zu realisieren.
Eine Neural Processing Unit (NPU) ist eine spezielle Hardwareschaltung, die speziell zur Beschleunigung der Ausführung von Algorithmen für künstliche Intelligenz und maschinelles Lernen entwickelt wurde. Im Gegensatz zu Allzweckprozessoren sind NPUs mit einer Architektur ausgestattet, die die komplexen, parallelen Matrixoperationen, die für Deep-Learning-Modelle von zentraler Bedeutung sind, nativ verarbeitet. Durch die extrem effiziente Ausführung dieser Berechnungen senkt eine NPU den Stromverbrauch drastisch und verbessert gleichzeitig die Inferenzlatenz erheblich. Dies macht sie zu einer unverzichtbaren Komponente moderner Mobiltelefone, Laptops und spezialisierter IoT-Geräte, bei denen der effiziente Einsatz komplexer Modelle ohne raschen Batterieverbrauch entscheidend ist.
Um den Nutzen einer NPU zu verstehen, ist es hilfreich, sie von anderen gängigen Hardwarebeschleunigern in der KI-Landschaft abzugrenzen:
Der Aufstieg der NPU hat es ermöglicht, künstliche Intelligenz (KI) direkt auf Benutzergeräten auszuführen, ohne auf eine ständige Cloud-Verbindung angewiesen zu sein.
Für Entwickler, die NPUs nutzen möchten, ist die Bereitstellung von Computer-Vision-Modellen mittlerweile unglaublich einfach geworden. Mit dem leistungsstarken Ultralytics können Sie Ihr trainiertes Netzwerk in Formate exportieren, die für verschiedene Hardwarebeschleuniger optimiert sind. Um diesen gesamten Lebenszyklus zu optimieren, bietet die Ultralytics leistungsstarke Tools für die Verwaltung von Cloud- Datensätzen, die automatisierte Annotation sowie die Bereitstellung optimierter Modelle in praktisch jeder Modellbereitstellungsumgebung.
Bei der lokalen Arbeit können Sie Framework-Integrationen wie ONNX , PyTorch oder TensorFlow nutzen, um die NPU anzusteuern. Nachfolgend finden Sie ein kurzes Python zeigt, wie ein YOLO in das OpenVINO exportiert wird, wodurch Rechenaufgaben nahtlos an Intel delegiert werden, um eine beschleunigte Echtzeit-Inferenz zu ermöglichen.
from ultralytics import YOLO
# Load the highly recommended Ultralytics YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Export to OpenVINO with int8 quantization for optimal NPU performance
model.export(format="openvino", int8=True)
# Run highly efficient, accelerated inference on the edge device
results = model("path/to/environment_image.jpg")
Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens