استكشف أساسيات الرؤية الحاسوبية (CV). تعرف على كيفية تمكين Ultralytics Ultralytics من اكتشاف الكائنات وتقسيمها وغير ذلك الكثير.
الرؤية الحاسوبية (CV) هي مجال متطور من مجالات الذكاء الاصطناعي (AI) الذي يمكّن أجهزة الكمبيوتر والأنظمة من استخلاص معلومات مفيدة من الصور الرقمية ومقاطع الفيديو والمدخلات المرئية الأخرى. في حين أن الرؤية البشرية تتمتع بقدرة فطرية على إدراك وفهم المحيط على الفور، يجب تدريب أجهزة الكمبيوتر على التعرف على الأنماط وتفسير وحدات البكسل. من خلال الاستفادة من خوارزميات التعلم الآلي (ML) وخاصة خوارزميات التعلم العميق (DL) ، يمكن لأنظمة الرؤية الحاسوبية أخذ البيانات المرئية ومعالجتها وتقديم توصيات أو اتخاذ إجراءات بناءً على تلك المعلومات.
في جوهره، يرى الكمبيوتر الصورة على أنها مجموعة من القيم الرقمية التي تمثل وحدات البكسل. تعتمد تقنية التعرف البصري الحديثة بشكل كبير على الشبكات العصبية التلافيفية (CNNs)، والتي صممت لتقليد نمط اتصال الخلايا العصبية في الدماغ البشري. تتعلم هذه الشبكات تحديد تسلسل هرمي للسمات — من الحواف والأنسجة البسيطة إلى الأشكال والأشياء المعقدة — من خلال عملية تسمى استخراج السمات.
لكي تعمل هذه النماذج بفعالية، فإنها تتطلب كميات هائلة من بيانات التدريب. على سبيل المثال، للتعرف على سيارة، يحتاج النموذج إلى معالجة آلاف الصور المصنفة للسيارات في ظروف مختلفة. تعمل أدوات مثل Ultralytics على تبسيط سير العمل هذا، مما يتيح للمستخدمين تعليق مجموعات البيانات وتدريب النماذج في السحابة ونشرها بكفاءة.
الرؤية الحاسوبية ليست وظيفة واحدة بل مجموعة من المهام المتميزة، كل منها يحل مشكلة محددة:
تشمل فائدة الرؤية الحاسوبية جميع الصناعات تقريبًا، حيث تعمل على أتمتة المهام التي كانت تتطلب في السابق تدخل العين البشرية .
من المهم التمييز بين السيرة الذاتية و معالجة الصور، على الرغم من أنهما غالبًا ما يعملان معًا.
المكتبات الحديثة جعلت تنفيذ نماذج CV القوية في متناول الجميع. يوضح المثال أدناه كيفية تحميل
أحدث يولو26 نموذج detect في صورة
باستخدام ultralytics الحزمة.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on a standard example image
# The model identifies objects and their locations
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
results[0].show()
يستخدم هذا البرنامج النصي البسيط نموذجًا مدربًا مسبقًا لأداء مهام استدلال معقدة ، مما يدل على سهولة الوصول إلى أدوات الذكاء الاصطناعي الحديثة. بالنسبة للمطورين الذين يتطلعون إلى تجاوز الصور الثابتة، يدعم CV أيضًا أنظمة فهم الفيديو والتتبع في الوقت الفعلي المستخدمة في تحليلات الأمن والرياضة. من خلال التكامل مع مكتبات مثل OpenCV، يمكن للمطورين إنشاء تطبيقات شاملة تلتقط وتعالج وتحلل العالم المرئي.