تعرف على Florence-2، نموذج اللغة المرئية من Microsoft الذي يوفر تحسينًا في الكشف عن الكائنات والتجزئة وأداء التصوير الصفري بكفاءة كبيرة.

تعرف على Florence-2، نموذج اللغة المرئية من Microsoft الذي يوفر تحسينًا في الكشف عن الكائنات والتجزئة وأداء التصوير الصفري بكفاءة كبيرة.

في يونيو 2024، قدمت Microsoft Florence-2، وهو نموذج لغة مرئية متعدد الوسائط (VLM) مصمم للتعامل مع مجموعة واسعة من المهام بما في ذلك اكتشاف الكائنات و التجزئة والتعليق على الصور والتأريض. يضع Florence-2 معيارًا جديدًا للأداء الصفري، مما يعني أنه يمكنه أداء المهام دون تدريب مسبق محدد، ويعزز حجم نموذج أصغر من نماذج رؤية اللغة الحديثة الأخرى.
إنه أكثر من مجرد نموذج آخر، فبراعة Florence-2 وأدائه المحسن لديهما القدرة على التأثير بشكل كبير على مختلف الصناعات من خلال تحسين الدقة وتقليل الحاجة إلى تدريب مكثف. في هذه المقالة، سوف نستكشف الميزات المبتكرة لـ Florence-2، ونقارن أدائه بنماذج VLM الأخرى، ونناقش تطبيقاته المحتملة.
يمكن لـ Florence-2 التعامل مع مجموعة متنوعة من المهام ضمن إطار عمل موحد واحد. تعود قدرات النموذج الرائعة جزئيًا إلى مجموعة التدريب الضخمة الخاصة به والتي تسمى FLD-5B. يتضمن FLD-5B 5.4 مليار تعليق توضيحي عبر 126 مليون صورة. تم إنشاء مجموعة البيانات الشاملة هذه خصيصًا لتمكين Florence-2 بالقدرات اللازمة للتعامل مع مجموعة واسعة من مهام الرؤية بدقة وكفاءة عالية.
إليك نظرة فاحصة على المهام التي يدعمها Florence-2:
.png)
يدعم النموذج المهام المستندة إلى النصوص والمهام المستندة إلى المناطق. تتم إضافة رموز موقع خاصة إلى مفردات النموذج للمهام التي تتضمن مناطق معينة من الصورة. تساعد هذه الرموز النموذج على فهم الأشكال المختلفة، مثل المستطيلات حول الكائنات (تمثيل الصندوق)، والأشكال ذات الأربعة جوانب (تمثيل الصندوق الرباعي)، والأشكال متعددة الجوانب (تمثيل المضلع). يتم تدريب النموذج باستخدام طريقة تسمى فقدان الاعتراض المتقاطع، مما يساعده على التعلم من خلال مقارنة تنبؤاته بالإجابات الصحيحة وتعديل معلماته الداخلية وفقًا لذلك.
تتضمن مجموعة بيانات FLD-5B أنواعًا مختلفة من التعليقات التوضيحية: أوصاف نصية، وأزواج من المناطق والنصوص، ومجموعات من النصوص والعبارات والمناطق. تم إنشاؤه من خلال عملية من خطوتين تتضمن جمع البيانات والتعليقات التوضيحية. تم الحصول على الصور من مجموعات بيانات شائعة مثل ImageNet-22k و Object 365 و Open Images و Conceptual Captions و LAION. التعليقات التوضيحية في مجموعة بيانات FLD-5B اصطناعية في الغالب، مما يعني أنها تم إنشاؤها تلقائيًا بدلاً من تصنيفها يدويًا.
.png)
في البداية، قامت نماذج متخصصة ماهرة في مهام محددة، مثل الكشف عن الكائنات أو التجزئة، بإنشاء هذه التعليقات التوضيحية. بعد ذلك، تم استخدام عملية ترشيح وتحسين للتأكد من أن التعليقات التوضيحية كانت مفصلة ودقيقة. بعد إزالة أي تشويش، مرت مجموعة البيانات بتحسين تكراري، حيث تم استخدام مخرجات Florence-2 لتحديث التعليقات التوضيحية وتحسينها باستمرار.
يتبع تصميم نموذج Florence-2 نهج التعلم من تسلسل إلى تسلسل. وهذا يعني أن النموذج يعالج تسلسل الإدخال (مثل صورة مع مطالبة نصية) وينتج تسلسل إخراج (مثل وصف أو تسمية) بطريقة تدريجية. في إطار عمل التسلسل إلى التسلسل، يتم التعامل مع كل مهمة على أنها مشكلة ترجمة: يأخذ النموذج صورة إدخال ومطالبة خاصة بالمهمة وينتج المخرجات المقابلة.
.png)
في صميم بنية النموذج يوجد محول ترميز-فك تشفير متعدد الوسائط، والذي يجمع بين ترميز الصور وترميز-فك تشفير متعدد الوسائط. يقوم ترميز الصور، المسمى DaViT (محول رؤية فعال للبيانات)، بمعالجة الصور المدخلة عن طريق تحويلها إلى تضمينات رمزية مرئية - تمثيلات مضغوطة للصورة تلتقط كلاً من المعلومات المكانية (أين توجد الأشياء) والدلالية (ما هي الأشياء). يتم بعد ذلك دمج هذه الرموز المرئية مع تضمينات النص (تمثيلات النص)، مما يسمح للنموذج بدمج البيانات النصية والمرئية بسلاسة.
يتميز Florence-2 عن نماذج اللغة المرئية الأخرى نظرًا لقدراته الرائعة في اللقطة الصفرية. على عكس نماذج مثل PaliGemma، التي تعتمد على الضبط الدقيق المكثف للتكيف مع المهام المختلفة، يعمل Florence-2 بشكل جيد بمجرد إخراجه من الصندوق. أيضًا، فإن Florence-2 قادر على منافسة النماذج الأكبر حجمًا مثل GPT-4V و Flamingo، والتي غالبًا ما تحتوي على عدد أكبر من المعلمات ولكنها لا تتطابق دائمًا مع أداء Florence-2. على سبيل المثال، يحقق Florence-2 نتائج أفضل في اللقطة الصفرية من Kosmos-2، على الرغم من أن Kosmos-2 لديه أكثر من ضعف عدد المعلمات.
في اختبارات الأداء القياسية، أظهر Florence-2 أداءً رائعًا في مهام مثل شرح COCO وفهم التعبيرات المرجعية. لقد تفوق على نماذج مثل PolyFormer و UNINEXT في مهام اكتشاف الكائنات وتجزئتها على مجموعة بيانات COCO. إنه خيار تنافسي للغاية للتطبيقات الواقعية حيث تكون كل من الأداء وكفاءة الموارد أمرًا بالغ الأهمية.
يمكن استخدام Florence-2 في العديد من الصناعات المختلفة، مثل الترفيه و إمكانية الوصول و التعليم وما إلى ذلك. دعنا نستعرض بعض الأمثلة للحصول على فهم أفضل.
عندما تكون على منصة بث تحاول تحديد ما تريد مشاهدته، قد تقرأ ملخصًا لفيلم لمساعدتك في الاختيار. ماذا لو كان بإمكان النظام الأساسي أيضًا تقديم وصف تفصيلي لملصق الفيلم؟ يمكن لـ Florence-2 أن يجعل ذلك ممكنًا من خلال التعليق التوضيحي للصور، والذي ينشئ نصًا وصفيًا للصور. يمكن لـ Florence-2 إنشاء أوصاف تفصيلية لملصقات الأفلام، مما يجعل منصات البث أكثر شمولاً للمستخدمين ضعاف البصر. من خلال تحليل العناصر المرئية للملصق، مثل الشخصيات والمناظر والنص، يمكن لـ Florence-2 إنشاء أوصاف تفصيلية تنقل محتوى الملصق ومزاجه. تعرض الصورة أدناه مستوى التفاصيل التي يمكن أن يوفرها Florence-2 في وصفه.

فيما يلي بعض الأمثلة الأخرى التي يمكن أن يكون فيها التعليق التوضيحي للصور مفيدًا:
يمكن أيضًا استخدام Florence-2 لإثراء تجارب الطهي. على سبيل المثال، يمكن لكتاب طبخ عبر الإنترنت استخدام Florence-2 لترسيخ وتسمية أجزاء من صورة وصفة معقدة بصريًا. يساعد التأريض البصري هنا عن طريق ربط أجزاء معينة من الصورة بالنص الوصفي المقابل. يمكن تسمية كل مكون وخطوة وشرحها بدقة، مما يسهل على الطهاة المنزليين اتباع الوصفة وفهم دور كل مكون في الطبق.
.png)
يمكن أن يكون التعرف الضوئي على الحروف (OCR) مع المعالجة المستندة إلى المناطق، والذي يركز على استخراج النص من مناطق معينة داخل المستند، مفيدًا عندما يتعلق الأمر بمجالات مثل المحاسبة. يمكن تحليل المناطق المخصصة في المستندات المالية لاستخراج المعلومات المهمة تلقائيًا مثل تفاصيل المعاملات وأرقام الحسابات وتواريخ الاستحقاق. من خلال تقليل الحاجة إلى إدخال البيانات يدويًا، فإنه يقلل الأخطاء ويسرع أوقات المعالجة. يمكن للمؤسسات المالية استخدامه لتبسيط مهام مثل معالجة الفواتير وتسوية الإيصالات وتخليص الشيكات، مما يؤدي إلى معاملات أسرع وخدمة عملاء أفضل.
.png)
يمكن لتجزئة قائمة على المناطق، والتي تتضمن تقسيم الصورة إلى أجزاء ذات معنى لتحليل مركز وفحص مفصل، أن تغذي التطبيقات الصناعية التي تحسن الدقة والكفاءة في العمليات المختلفة. من خلال التركيز على مناطق معينة داخل الصورة، تتيح هذه التقنية الفحص والتحليل التفصيلي للمكونات والمنتجات. فيما يتعلق بمراقبة الجودة، يمكنها تحديد العيوب أو التناقضات في المواد، مثل الشقوق أو الاختلالات، مما يضمن وصول المنتجات عالية الجودة فقط إلى السوق.
.png)
كما أنه يحسن خطوط التجميع الآلية عن طريق توجيه الأذرع الروبوتية إلى أجزاء معينة وتحسين وضع وتجميع المكونات. وبالمثل، في إدارة المخزون، فإنه يساعد على تتبع ومراقبة حالة وموقع البضائع، مما يؤدي إلى لوجستيات أكثر كفاءة وتقليل وقت التوقف. بشكل عام، يعزز تقسيم المنطقة المستندة إلى المنطقة الدقة والإنتاجية، مما يؤدي إلى توفير التكاليف وجودة منتجات أعلى في البيئات الصناعية.
بدأنا نرى اتجاهًا حيث أصبحت نماذج الذكاء الاصطناعي أخف وزنًا مع الحفاظ على الأداء العالي. يمثل Florence-2 خطوة كبيرة إلى الأمام من حيث نماذج اللغة المرئية. يمكنه التعامل مع مهام مختلفة مثل اكتشاف الكائنات وتجزئتها وتسمية الصور وتحديد الأساس بأداء مثير للإعجاب بدون تدريب مسبق. على الرغم من صغر حجمه، إلا أن Florence-2 فعال ومتعدد الوظائف، مما يجعله مفيدًا للغاية من حيث التطبيقات عبر مختلف الصناعات. تجلب نماذج مثل Florence-2 المزيد من الاحتمالات إلى الطاولة، مما يوسع إمكانات ابتكارات الذكاء الاصطناعي.
اكتشف المزيد حول الذكاء الاصطناعي من خلال زيارة مستودع GitHub الخاص بنا والانضمام إلى مجتمعنا. تحقق من صفحات الحلول الخاصة بنا لقراءة المزيد حول تطبيقات الذكاء الاصطناعي في التصنيع و الزراعة. 🚀