Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

نماذج الرؤية الكبيرة (LVM)

اكتشف نماذج الرؤية الكبيرة (LVM) وتأثيرها على الذكاء الاصطناعي. تعرف على كيفية قيام Ultralytics Ultralytics بتوفير إمكانيات متقدمة للكشف عن الأجسام وتحليلها.

تمثل نماذج الرؤية الكبيرة (LVM) تطوراً كبيراً في مجال الذكاء الاصطناعي، حيث تركز حصرياً على فهم البيانات المرئية وتوليدها ومعالجتها على نطاق واسع. وعلى عكس أنظمة الرؤية الحاسوبية التقليدية التي يتم تدريبها على مجموعات بيانات محدودة لمهام محددة مسبقًا، تعمل نماذج LVM كنماذج أساسية عامة تم تدريبها على مجموعات ضخمة من الصور ومقاطع الفيديو. ويتيح لها هذا التدريب المسبق المكثف تطوير فهم عميق وشامل للهندسة البصرية، والأنسجة، والعلاقات المكانية المعقدة دون الاعتماد على التسميات التي يعلقها البشر.

كيف تعمل نماذج الرؤية الكبيرة

تستفيد نماذج الرؤية الحديثة الكبيرة عادةً من محولات الرؤية (ViT) أو البنى التلافيفية عالية التوسع لمعالجة المدخلات البصرية. ومن خلال استخدام تقنيات التعلم الذاتي الإشرافي ، مثل نمذجة الصور المقنعة، تتعلم هذه النماذج عن طريق توقع الأجزاء المفقودة من الصورة أو الإطار. وقد أثبتت المؤسسات الأكاديمية مثل مركز ستانفورد لأبحاث النماذج الأساسية أن التوسع السريع في عدد معلمات هذه النماذج يؤدي إلى ظهور قدرات مبتكرة وجاهزة للاستخدام. وهذا يسمح لها بالتكيف مع المهام النهائية مثل الكشف عن الأجسام بسرعة عالية وتقسيم الصور التفصيلي مع الحد الأدنى من الضبط الدقيق.

تطبيقات واقعية

تُحدث شبكات LVM ثورة في مختلف القطاعات من خلال إجراء تحليلات بصرية معقدة كانت تتطلب في السابق خوارزميات متخصصة للغاية ومُصممة خصيصًا لهذا الغرض.

  • التحليل الآلي للصور الطبية: في البيئات السريرية، تعالج أنظمة الرؤية الضخمة صور الأشعة السينية عالية الدقة، وصور الرنين المغناطيسي، وصور الأشعة المقطعية، من أجل تحديد الشذوذات الطفيفة، مما يساعد أخصائيي الأشعة في الكشف المبكر عن الأمراض ويقلل بشكل كبير من الأخطاء التشخيصية.
  • كشف العيوب في مجال التصنيع: تستخدم خطوط الإنتاج في المصانع نماذج الرؤية العامة لفحص المنتجات في الوقت الفعلي، مما يتيح التعرف بسهولة على العيوب المعقدة التي لم يسبق رؤيتها من قبل على خطوط التجميع، وتحسين مراقبة الجودة دون الحاجة إلى آلاف الأمثلة لكل عيب محدد.

التمييز بين المفاهيم ذات الصلة

لفهم المشهد العام للذكاء الاصطناعي بشكل كامل، من المفيد التمييز بين نماذج LVM والنماذج الأساسية الشائعة الأخرى:

  • LVM مقابل نموذج اللغة البصرية (VLM): في حين أن LVM يعالج فقط العناصر البصرية (البيكسلات)، فإن VLM يدمج النص والصور معًا، مما يتيح للمستخدمين طرح أسئلة باللغة الطبيعية حول صورة ما أو الحصول على أوصاف نصية لمقطع فيديو.
  • LVM مقابل نموذج اللغة الكبير (LLM): يتم تدريب نماذج اللغة الكبيرة (LLM) حصريًّا على البيانات النصية لفهم اللغة البشرية وتوليدها. أما نموذج LVM فيؤدي وظائف مماثلة في التوسع والفهم، ولكن حصريًّا للبيانات المرئية.

العمل مع نماذج Vision

في حين أن نماذج LVM الضخمة غالبًا ما تتطلب مجموعات خوادم تعمل PyTorch أو TensorFlow، فإن نماذج الرؤية الأساسية المُحسّنة للغاية مثل Ultralytics توفر ذكاءً بصريًا قويًا ومتطورًا مباشرةً إلى بيئات الحافة المحلية. يوضح المثال التالي كيفية إجراء استدلال بصري قوي باستخدام نموذج مُدرّب مسبقًا:

from ultralytics import YOLO

# Load an advanced pre-trained Ultralytics YOLO26 model
model = YOLO("yolo26x.pt")

# Perform inference on an image to extract visual features and bounding boxes
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the predicted visual relationships
results[0].show()

مستقبل الذكاء البصري

إن الانتقال من الأبحاث الأكاديمية المنشورة على منصة arXiv والمكتبة الرقمية IEEE Xplore إلى الاستخدام العملي في مجال الأعمال يتسارع بشكل كبير. تعمل الابتكارات الصادرة عن مجموعات بحثية مثل Google على توسيع نطاق نماذج LVM لتشمل المجال الزمني، مما يمكّن النماذج من فهم تسلسلات الفيديو المعقدة على غرار تلك التي نراها في نظام Sora التابع لـ OpenAI.

بالنسبة للمطورين والمؤسسات التي تسعى إلى بناء حلول مخصصة للذكاء الاصطناعي البصري، توفر Ultralytics أدوات سلسة لتعليق مجموعات البيانات بشكل جماعي، والتدريب السحابي، ونشر النماذج بشكل مبسط، مما يجعل قدرات الرؤية المتقدمة في متناول الجميع. علاوة على ذلك، تُظهر أدوات التجزئة بدون تدريب مثل Segment Anything 2 (SAM ) من Meta كيف تعمل مناهج الرؤية الأساسية واسعة النطاق — التي غالبًا ما يتم تفصيلها في مكتبة ACM الرقمية— على توحيد الفهم المعقد على مستوى البكسل عبر صناعة الذكاء الاصطناعي بأكملها.

لنبني مستقبل الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة