TPU (Tensor Processing Unit)
استكشف كيف تسرع وحدات معالجة الموتر (TPUs) تعلم الآلة. تعلم تحسين Ultralytics YOLO26 لـ Edge TPUs والتدريب السحابي لأقصى سرعة.
وحدة معالجة الموتر (TPU) هي دائرة متكاملة مخصصة لتطبيق معين (ASIC) صممتها Google خصيصًا لتسريع أعباء عمل تعلم الآلة (ML). وخلافًا للمعالجات ذات الأغراض العامة التي تعالج مجموعة واسعة من مهام الحوسبة، تم تصميم وحدات TPU من الصفر لتحسين عمليات المصفوفات الضخمة التي تعد أساسية لـ الشبكات العصبية. يتيح لها هذا التركيز الخاص تحقيق معدل نقل وكفاءة طاقة عاليين للغاية، مما يجعلها حجر الزاوية في بنية الذكاء الاصطناعي (AI) الحديثة، لا سيما ضمن نظام Google السحابي. وهي تلعب دورًا حيويًا في تقليل الوقت المطلوب لكل من تدريب النماذج المعقدة وتشغيل الاستنتاج في الوقت الفعلي على نطاق واسع.
Link to this sectionالبنية والوظيفة#
تختلف بنية وحدة TPU بشكل كبير عن المعالجات التقليدية. بينما يتفوق CPU (وحدة المعالجة المركزية) القياسي في المهام التسلسلية والمنطق المعقد، ويستخدم GPU (وحدة معالجة الرسومات) نوى متوازية للرسومات والحوسبة العامة، تستخدم وحدة TPU بنية المصفوفة الانقباضية. يتيح هذا التصميم تدفق البيانات عبر آلاف المضاعفات في وقت واحد دون الوصول إلى الذاكرة في كل عملية. من خلال زيادة كثافة الحوسبة وتقليل زمن الوصول إلى أدنى حد، تعد وحدات TPU مناسبة بشكل فريد للجبر الخطي المكثف الموجود في تطبيقات التعلم العميق (DL).
تم تحسين هذا الجهاز المتخصص بشكل كبير لأطر عمل مثل TensorFlow ويتم دعمه بشكل متزايد بواسطة PyTorch، مما يسمح للمطورين بتدريب نماذج أساسية ضخمة أو نشر حلول حافة فعالة دون إعادة كتابة قواعد التعليمات البرمجية الخاصة بهم بالكامل.
Link to this sectionالتمييز بين وحدات المعالجة#
يعد فهم مشهد الأجهزة أمرًا بالغ الأهمية لتحسين عمليات تعلم الآلة (MLOps).
- CPU: "عقل" الكمبيوتر ذو الأغراض العامة، وهو مثالي للمعالجة التسلسلية، ومعالجة البيانات مسبقًا، والتعامل مع المنطق المعقد. غالبًا ما يستخدم لخطوط أنابيب زيادة البيانات ولكنه أبطأ في العمليات الحسابية المصفوفية الثقيلة.
- GPU: بُنيت في الأصل لعرض الصور، وتعد وحدات GPU المعيار الصناعي لـ تدريب النماذج نظرًا لتعدد استخداماتها وتوازيها الهائل. وهي ممتازة لتدريب نماذج مرنة مثل Ultralytics YOLO26.
- TPU: مسرع مخصص يضحي بالمرونة من أجل السرعة الخام في عمليات الموترات. صُممت لزيادة FLOPS (عمليات الفاصلة العائمة في الثانية) خصيصًا لحسابات الشبكات العصبية، وغالبًا ما توفر أداءً أفضل لكل واط لأعباء عمل محددة واسعة النطاق.
Link to this sectionتطبيقات العالم الحقيقي#
يتم نشر وحدات TPU في بيئات مختلفة، من التجمعات السحابية الضخمة إلى أجهزة الحافة الصغيرة.
-
تدريب النماذج اللغوية الكبيرة: تستخدم Google مجموعات مترابطة واسعة، تُعرف باسم TPU Pods، لتدريب نماذج لغوية كبيرة (LLMs) هائلة مثل PaLM وGemini. يمكن لهذه الأنظمة معالجة بيتابايت من بيانات التدريب في جزء بسيط من الوقت الذي قد تستغرقه الأجهزة التقليدية، مما يسرع التطورات في الذكاء الاصطناعي التوليدي.
-
الذكاء الاصطناعي عند الحافة وإنترنت الأشياء: تجلب Coral Edge TPU هذا التسريع إلى الأجهزة منخفضة الطاقة. وهي تتيح تطبيقات الرؤية الحاسوبية (CV) فعالة، مثل تشغيل اكتشاف الكائنات على خط التصنيع لتحديد العيوب محليًا. يتيح ذلك اتخاذ قرارات فورية دون الاعتماد على الاتصال السحابي، مما يحافظ على النطاق الترددي والخصوصية.
Link to this sectionاستخدام وحدات TPU مع Ultralytics#
يمكن للمطورين الاستفادة من تسريع TPU لنماذج Ultralytics، خاصة عند استخدام منصة Ultralytics للتدريب السحابي أو تصدير النماذج للنشر عند الحافة. تتطلب Edge TPU، على سبيل المثال، أن يتم تكميم النماذج وتجميعها خصيصًا لبنيتها.
يوضح المثال التالي كيفية تصدير نموذج YOLO26 إلى تنسيق TFLite، وهو خطوة أولية قبل التجميع لـ Edge TPU:
from ultralytics import YOLO
# Load the latest lightweight YOLO26 nano model
model = YOLO("yolo26n.pt")
# Export the model to TFLite format
# This creates a '.tflite' file suitable for mobile and edge deployment
# Set int8=True for quantization, which is often required for Edge TPU performance
model.export(format="tflite", int8=True)بمجرد التصدير، يمكن تجميع النموذج بشكل إضافي لـ Edge TPU باستخدام Edge TPU Compiler، مما يسمح له بالتشغيل بكفاءة على أجهزة مثل Raspberry Pi مع مسرع Coral USB. لمزيد من التفاصيل حول النشر، قد يكون استكشاف توثيق تكامل TFLite مفيدًا جدًا.






