Large Vision Models (LVM)

استكشف نماذج الرؤية الكبيرة (LVM) وتأثيرها على الذكاء الاصطناعي. تعلم كيف تتيح Ultralytics YOLO26 ومنصة Ultralytics اكتشاف وتحليل الكائنات المتقدم.

تمثل نماذج الرؤية الكبيرة (LVM) تطوراً رئيسياً في الذكاء الاصطناعي، حيث تركز حصرياً على فهم البيانات البصرية ومعالجتها وتوليدها على نطاق واسع. وعلى عكس أنظمة الرؤية الحاسوبية التقليدية التي يتم تدريبها على مجموعات بيانات ضيقة لمهام محددة ومُعرفة مسبقاً، تعمل نماذج LVM كنماذج أساسية عامة يتم تدريبها على مجموعات واسعة من الصور ومقاطع الفيديو. يتيح هذا التدريب المسبق المكثف لهذه النماذج تطوير فهم عميق وشامل للهندسة البصرية والأنسجة والعلاقات المكانية المعقدة دون الاعتماد على التصنيفات البشرية.

Link to this sectionكيف تعمل نماذج الرؤية الكبيرة#

تستفيد نماذج الرؤية الكبيرة الحديثة عادةً من محولات الرؤية (ViT) أو البنى التلافيفية عالية التوسع لمعالجة المدخلات البصرية. ومن خلال توظيف تقنيات التعلم الموجه ذاتياً، مثل نمذجة الصور المقنعة، تتعلم هذه النماذج عن طريق التنبؤ بالأجزاء المفقودة من صورة أو إطار ما. وقد أثبتت المؤسسات الأكاديمية مثل مركز ستانفورد لأبحاث النماذج الأساسية أن التوسع السريع في عدد معاملات هذه النماذج يؤدي إلى ظهور قدرات تلقائية ومبتكرة، مما يسمح لها بالتكيف مع المهام اللاحقة مثل اكتشاف الكائنات عالي السرعة وتجزئة الصور التفصيلية بأقل قدر من الضبط الدقيق.

Link to this sectionتطبيقات العالم الحقيقي#

تعمل نماذج LVM على إحداث تحول في الصناعات من خلال معالجة التحليلات البصرية المعقدة التي كانت تتطلب سابقاً خوارزميات متخصصة للغاية ومصممة خصيصاً.

تحليل الصور الطبية الآلي: في البيئات السريرية، تعالج بنيات الرؤية الحاسوبية الكبيرة صور الأشعة السينية، والرنين المغناطيسي، والأشعة المقطعية عالية الدقة لتحديد الشذوذات الطفيفة، مما يساعد أخصائيي الأشعة في الكشف المبكر عن الأمراض ويقلل بشكل كبير من الأخطاء التشخيصية.
كشف العيوب في التصنيع: تستخدم خطوط الإنتاج في المصانع نماذج الرؤية الحاسوبية المعممة لفحص المنتجات في الوقت الفعلي، حيث تحدد بسهولة العيوب المعقدة وغير المسبوقة على خطوط التجميع وتحسن مراقبة الجودة دون الحاجة إلى آلاف الأمثلة لكل خلل محدد.

Link to this sectionالتمييز بين المفاهيم ذات الصلة#

لفهم مشهد الذكاء الاصطناعي بشكل كامل، من المفيد تمييز نماذج LVM عن النماذج الأساسية الشائعة الأخرى:

مقارنة بين LVM و نموذج الرؤية اللغوية (VLM): بينما تعالج LVM الأنماط البصرية فقط (البكسلات)، يدمج نموذج VLM بين النص والصور، مما يسمح للمستخدمين بطرح أسئلة باللغة الطبيعية حول صورة أو تلقي أوصاف نصية لمقطع فيديو.
مقارنة بين LVM و نموذج اللغة الكبير (LLM): يتم تدريب نماذج LLM حصرياً على البيانات النصية لفهم وتوليد اللغة البشرية. بينما تقوم نماذج LVM بإجراء نفس مستوى التوسع والفهم، ولكن حصرياً للبيانات البصرية.

Link to this sectionالعمل مع نماذج الرؤية#

بينما تتطلب نماذج LVM الضخمة غالباً مجموعات خوادم تشغل PyTorch أو TensorFlow، فإن نماذج الرؤية الأساسية المحسنة للغاية مثل Ultralytics YOLO26 توفر ذكاءً بصرياً قوياً ومتطوراً مباشرة إلى بيئات الحافة المحلية. يوضح المثال التالي كيفية إجراء استدلال بصري قوي باستخدام نموذج مدرب مسبقاً:

from ultralytics import YOLO

# Load an advanced pre-trained Ultralytics YOLO26 model
model = YOLO("yolo26x.pt")

# Perform inference on an image to extract visual features and bounding boxes
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the predicted visual relationships
results[0].show()

Link to this sectionمستقبل الذكاء البصري#

يتسارع الانتقال من الأبحاث الأكاديمية المنشورة على arXiv و المكتبة الرقمية IEEE Xplore إلى الاستخدام المؤسسي العملي بشكل كبير. وتعمل الابتكارات من مجموعات بحثية مثل Google DeepMind بنشاط على توسيع نطاق نماذج LVM ليشمل النطاق الزمني، مما يتيح للنماذج فهم تسلسلات الفيديو المعقدة بشكل مشابه لما نراه في OpenAI's Sora.

بالنسبة للمطورين والمؤسسات التي تتطلع إلى بناء حلول ذكاء اصطناعي بصري مخصصة، توفر منصة Ultralytics أدوات سلسة لتعليق مجموعات البيانات الخاصة بالفريق، والتدريب السحابي، ونشر النماذج المبسط، مما يجعل قدرات الرؤية المتقدمة في متناول الجميع. علاوة على ذلك، تُظهر أدوات التجزئة ذات اللقطة الصفرية (zero-shot) مثل Segment Anything 2 (SAM 2) من Meta كيف تعمل مقاربات الرؤية التأسيسية واسعة النطاق—التي غالباً ما يتم تفصيلها في مكتبة ACM الرقمية—على توحيد معايير الفهم المعقد على مستوى البكسل عبر صناعة الذكاء الاصطناعي بأكملها.

Explore solutions

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

Large Vision Models (LVM)

Link to this sectionكيف تعمل نماذج الرؤية الكبيرة#

Link to this sectionتطبيقات العالم الحقيقي#

Link to this sectionالتمييز بين المفاهيم ذات الصلة#

Link to this sectionالعمل مع نماذج الرؤية#

Link to this sectionمستقبل الذكاء البصري#

Explore solutions

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

لنبنِ مستقبل الذكاء الاصطناعي معاً!