يولو فيجن شنتشن
شنتشن
انضم الآن

Florence-2: أحدث نموذج للرؤية اللغوية من Microsoft

أبيرامي فينا

6 دقائق قراءة

26 يوليو، 2024

تعرف على Florence-2، نموذج اللغة المرئية من Microsoft الذي يوفر تحسينًا في الكشف عن الكائنات والتجزئة وأداء التصوير الصفري بكفاءة كبيرة.

في يونيو 2024، قدمت Microsoft Florence-2، وهو نموذج لغة مرئية متعدد الوسائط (VLM) مصمم للتعامل مع مجموعة واسعة من المهام بما في ذلك اكتشاف الكائنات و التجزئة والتعليق على الصور والتأريض. يضع Florence-2 معيارًا جديدًا للأداء الصفري، مما يعني أنه يمكنه أداء المهام دون تدريب مسبق محدد، ويعزز حجم نموذج أصغر من نماذج رؤية اللغة الحديثة الأخرى.

إنه أكثر من مجرد نموذج آخر، فبراعة Florence-2 وأدائه المحسن لديهما القدرة على التأثير بشكل كبير على مختلف الصناعات من خلال تحسين الدقة وتقليل الحاجة إلى تدريب مكثف. في هذه المقالة، سوف نستكشف الميزات المبتكرة لـ Florence-2، ونقارن أدائه بنماذج VLM الأخرى، ونناقش تطبيقاته المحتملة.

ما هو Florence-2؟

يمكن لـ Florence-2 التعامل مع مجموعة متنوعة من المهام ضمن إطار عمل موحد واحد. تعود قدرات النموذج الرائعة جزئيًا إلى مجموعة التدريب الضخمة الخاصة به والتي تسمى FLD-5B. يتضمن FLD-5B 5.4 مليار تعليق توضيحي عبر 126 مليون صورة. تم إنشاء مجموعة البيانات الشاملة هذه خصيصًا لتمكين Florence-2 بالقدرات اللازمة للتعامل مع مجموعة واسعة من مهام الرؤية بدقة وكفاءة عالية. 

إليك نظرة فاحصة على المهام التي يدعمها Florence-2:

  • اكتشاف الكائنات: يمكنه تحديد مواقع الكائنات داخل الصور بدقة عالية.
  • التجزئة: تتضمن هذه المهمة تقسيم الصورة إلى أجزاء ذات معنى لتسهيل التحليل والتفسير.
  • تسمية الصور: فلورنس-2 قادر على إنشاء تسميات وصفية للصور توفر السياق والتفاصيل.
  • التأسيس المرئي: يمكن للنموذج ربط عبارات أو كلمات معينة في التسمية التوضيحية بالمناطق المقابلة في الصورة.
  • أداء Zero-shot: يمكنه أداء المهام دون تدريب محدد.
__wf_reserved_inherit
الشكل 1. فهم كيفية تدريب Florence-2.

يدعم النموذج المهام المستندة إلى النصوص والمهام المستندة إلى المناطق. تتم إضافة رموز موقع خاصة إلى مفردات النموذج للمهام التي تتضمن مناطق معينة من الصورة. تساعد هذه الرموز النموذج على فهم الأشكال المختلفة، مثل المستطيلات حول الكائنات (تمثيل الصندوق)، والأشكال ذات الأربعة جوانب (تمثيل الصندوق الرباعي)، والأشكال متعددة الجوانب (تمثيل المضلع). يتم تدريب النموذج باستخدام طريقة تسمى فقدان الاعتراض المتقاطع، مما يساعده على التعلم من خلال مقارنة تنبؤاته بالإجابات الصحيحة وتعديل معلماته الداخلية وفقًا لذلك.

إنشاء مجموعة بيانات FLD-5B

تتضمن مجموعة بيانات FLD-5B أنواعًا مختلفة من التعليقات التوضيحية: أوصاف نصية، وأزواج من المناطق والنصوص، ومجموعات من النصوص والعبارات والمناطق. تم إنشاؤه من خلال عملية من خطوتين تتضمن جمع البيانات والتعليقات التوضيحية. تم الحصول على الصور من مجموعات بيانات شائعة مثل ImageNet-22k و Object 365 و Open Images و Conceptual Captions و LAION. التعليقات التوضيحية في مجموعة بيانات FLD-5B اصطناعية في الغالب، مما يعني أنها تم إنشاؤها تلقائيًا بدلاً من تصنيفها يدويًا. 

__wf_reserved_inherit
الشكل 2. إنشاء مجموعة بيانات FLD-5B.

في البداية، قامت نماذج متخصصة ماهرة في مهام محددة، مثل الكشف عن الكائنات أو التجزئة، بإنشاء هذه التعليقات التوضيحية. بعد ذلك، تم استخدام عملية ترشيح وتحسين للتأكد من أن التعليقات التوضيحية كانت مفصلة ودقيقة. بعد إزالة أي تشويش، مرت مجموعة البيانات بتحسين تكراري، حيث تم استخدام مخرجات Florence-2 لتحديث التعليقات التوضيحية وتحسينها باستمرار. 

فهم بنية نموذج Florence-2

يتبع تصميم نموذج Florence-2 نهج التعلم من تسلسل إلى تسلسل. وهذا يعني أن النموذج يعالج تسلسل الإدخال (مثل صورة مع مطالبة نصية) وينتج تسلسل إخراج (مثل وصف أو تسمية) بطريقة تدريجية. في إطار عمل التسلسل إلى التسلسل، يتم التعامل مع كل مهمة على أنها مشكلة ترجمة: يأخذ النموذج صورة إدخال ومطالبة خاصة بالمهمة وينتج المخرجات المقابلة.

__wf_reserved_inherit
الشكل 3. بنية نموذج الرؤية واللغة Florence-2.

في صميم بنية النموذج يوجد محول ترميز-فك تشفير متعدد الوسائط، والذي يجمع بين ترميز الصور وترميز-فك تشفير متعدد الوسائط. يقوم ترميز الصور، المسمى DaViT (محول رؤية فعال للبيانات)، بمعالجة الصور المدخلة عن طريق تحويلها إلى تضمينات رمزية مرئية - تمثيلات مضغوطة للصورة تلتقط كلاً من المعلومات المكانية (أين توجد الأشياء) والدلالية (ما هي الأشياء). يتم بعد ذلك دمج هذه الرموز المرئية مع تضمينات النص (تمثيلات النص)، مما يسمح للنموذج بدمج البيانات النصية والمرئية بسلاسة.

مقارنة Florence-2 بنماذج اللغات الكبيرة المرئية الأخرى

يتميز Florence-2 عن نماذج اللغة المرئية الأخرى نظرًا لقدراته الرائعة في اللقطة الصفرية. على عكس نماذج مثل PaliGemma، التي تعتمد على الضبط الدقيق المكثف للتكيف مع المهام المختلفة، يعمل Florence-2 بشكل جيد بمجرد إخراجه من الصندوق. أيضًا، فإن Florence-2 قادر على منافسة النماذج الأكبر حجمًا مثل GPT-4V و Flamingo، والتي غالبًا ما تحتوي على عدد أكبر من المعلمات ولكنها لا تتطابق دائمًا مع أداء Florence-2. على سبيل المثال، يحقق Florence-2 نتائج أفضل في اللقطة الصفرية من Kosmos-2، على الرغم من أن Kosmos-2 لديه أكثر من ضعف عدد المعلمات.

في اختبارات الأداء القياسية، أظهر Florence-2 أداءً رائعًا في مهام مثل شرح COCO وفهم التعبيرات المرجعية. لقد تفوق على نماذج مثل PolyFormer و UNINEXT في مهام اكتشاف الكائنات وتجزئتها على مجموعة بيانات COCO. إنه خيار تنافسي للغاية للتطبيقات الواقعية حيث تكون كل من الأداء وكفاءة الموارد أمرًا بالغ الأهمية.

تطبيقات Florence-2

يمكن استخدام Florence-2 في العديد من الصناعات المختلفة، مثل الترفيه و إمكانية الوصول و التعليم وما إلى ذلك. دعنا نستعرض بعض الأمثلة للحصول على فهم أفضل.

تطبيقات التعليق على الصور

عندما تكون على منصة بث تحاول تحديد ما تريد مشاهدته، قد تقرأ ملخصًا لفيلم لمساعدتك في الاختيار. ماذا لو كان بإمكان النظام الأساسي أيضًا تقديم وصف تفصيلي لملصق الفيلم؟ يمكن لـ Florence-2 أن يجعل ذلك ممكنًا من خلال التعليق التوضيحي للصور، والذي ينشئ نصًا وصفيًا للصور. يمكن لـ Florence-2 إنشاء أوصاف تفصيلية لملصقات الأفلام، مما يجعل منصات البث أكثر شمولاً للمستخدمين ضعاف البصر. من خلال تحليل العناصر المرئية للملصق، مثل الشخصيات والمناظر والنص، يمكن لـ Florence-2 إنشاء أوصاف تفصيلية تنقل محتوى الملصق ومزاجه. تعرض الصورة أدناه مستوى التفاصيل التي يمكن أن يوفرها Florence-2 في وصفه.

__wf_reserved_inherit
الشكل 4. مثال على شرح صورة تم إنشاؤه بواسطة Florence-2. 

فيما يلي بعض الأمثلة الأخرى التي يمكن أن يكون فيها التعليق التوضيحي للصور مفيدًا:

  • التجارة الإلكترونية: يمكن أن يوفر التعليق على الصور أوصافًا تفصيلية لصور المنتج، مما يساعد العملاء على فهم ميزات المنتج وتفاصيله بشكل أكثر وضوحًا.
  • السفر والسياحة: يمكن أن توفر أوصافًا تفصيلية للمعالم السياحية ومناطق الجذب في الأدلة السياحية والتطبيقات.
  • التعليم: يمكن لتسمية الصور تسمية ووصف الصور والرسوم التوضيحية التعليمية، مما يساعد في التدريس والتعلم.
  • العقارات: يمكن أن يوفر أوصافًا تفصيلية لصور العقارات التي تسلط الضوء على الميزات ووسائل الراحة للمشترين المحتملين.

استخدام التأسيس المرئي أثناء الطهي

يمكن أيضًا استخدام Florence-2 لإثراء تجارب الطهي. على سبيل المثال، يمكن لكتاب طبخ عبر الإنترنت استخدام Florence-2 لترسيخ وتسمية أجزاء من صورة وصفة معقدة بصريًا. يساعد التأريض البصري هنا عن طريق ربط أجزاء معينة من الصورة بالنص الوصفي المقابل. يمكن تسمية كل مكون وخطوة وشرحها بدقة، مما يسهل على الطهاة المنزليين اتباع الوصفة وفهم دور كل مكون في الطبق.

__wf_reserved_inherit
الشكل 5. مثال على التأسيس المرئي باستخدام Florence-2. 

التعرف الضوئي على الحروف (OCR) القائم على المناطق للمستندات المالية

يمكن أن يكون التعرف الضوئي على الحروف (OCR) مع المعالجة المستندة إلى المناطق، والذي يركز على استخراج النص من مناطق معينة داخل المستند، مفيدًا عندما يتعلق الأمر بمجالات مثل المحاسبة. يمكن تحليل المناطق المخصصة في المستندات المالية لاستخراج المعلومات المهمة تلقائيًا مثل تفاصيل المعاملات وأرقام الحسابات وتواريخ الاستحقاق. من خلال تقليل الحاجة إلى إدخال البيانات يدويًا، فإنه يقلل الأخطاء ويسرع أوقات المعالجة. يمكن للمؤسسات المالية استخدامه لتبسيط مهام مثل معالجة الفواتير وتسوية الإيصالات وتخليص الشيكات، مما يؤدي إلى معاملات أسرع وخدمة عملاء أفضل. 

__wf_reserved_inherit
الشكل 6. مثال على استخراج التعرف الضوئي على الحروف (OCR) مع المنطقة باستخدام Florence-2. 

تجزئة قائمة على المناطق في التطبيقات الصناعية

يمكن لتجزئة قائمة على المناطق، والتي تتضمن تقسيم الصورة إلى أجزاء ذات معنى لتحليل مركز وفحص مفصل، أن تغذي التطبيقات الصناعية التي تحسن الدقة والكفاءة في العمليات المختلفة. من خلال التركيز على مناطق معينة داخل الصورة، تتيح هذه التقنية الفحص والتحليل التفصيلي للمكونات والمنتجات. فيما يتعلق بمراقبة الجودة، يمكنها تحديد العيوب أو التناقضات في المواد، مثل الشقوق أو الاختلالات، مما يضمن وصول المنتجات عالية الجودة فقط إلى السوق.

__wf_reserved_inherit
الشكل 7. مثال على التجزئة المستندة إلى المناطق باستخدام Florence-2.

كما أنه يحسن خطوط التجميع الآلية عن طريق توجيه الأذرع الروبوتية إلى أجزاء معينة وتحسين وضع وتجميع المكونات. وبالمثل، في إدارة المخزون، فإنه يساعد على تتبع ومراقبة حالة وموقع البضائع، مما يؤدي إلى لوجستيات أكثر كفاءة وتقليل وقت التوقف. بشكل عام، يعزز تقسيم المنطقة المستندة إلى المنطقة الدقة والإنتاجية، مما يؤدي إلى توفير التكاليف وجودة منتجات أعلى في البيئات الصناعية.

النقاط الرئيسية

بدأنا نرى اتجاهًا حيث أصبحت نماذج الذكاء الاصطناعي أخف وزنًا مع الحفاظ على الأداء العالي. يمثل Florence-2 خطوة كبيرة إلى الأمام من حيث نماذج اللغة المرئية. يمكنه التعامل مع مهام مختلفة مثل اكتشاف الكائنات وتجزئتها وتسمية الصور وتحديد الأساس بأداء مثير للإعجاب بدون تدريب مسبق. على الرغم من صغر حجمه، إلا أن Florence-2 فعال ومتعدد الوظائف، مما يجعله مفيدًا للغاية من حيث التطبيقات عبر مختلف الصناعات. تجلب نماذج مثل Florence-2 المزيد من الاحتمالات إلى الطاولة، مما يوسع إمكانات ابتكارات الذكاء الاصطناعي.

اكتشف المزيد حول الذكاء الاصطناعي من خلال زيارة مستودع GitHub الخاص بنا والانضمام إلى مجتمعنا. تحقق من صفحات الحلول الخاصة بنا لقراءة المزيد حول تطبيقات الذكاء الاصطناعي في التصنيع و الزراعة. 🚀

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا
تم نسخ الرابط إلى الحافظة