الذكاء الاصطناعي المرئي

Florence-2: أحدث نموذج للغة المرئية من Microsoft

تعرف على Florence-2، نموذج اللغة المرئية من Microsoft الذي يوفر تحسيناً في اكتشاف الكائنات، والتقسيم، والأداء في بيئة التعلم بصفر أمثلة (zero-shot) بكفاءة عالية.

أبأبيرامي فينا

6 min readJuly 26, 2024

نموذج اللغة المرئية Florence-2 من Microsoft

في يونيو 2024، قدمت Microsoft نموذج Florence-2، وهو نموذج لغوي بصري (VLM) متعدد الوسائط مصمم للتعامل مع مجموعة واسعة من المهام بما في ذلك اكتشاف الكائنات، والتجزئة، ووصف الصور، والتأريض البصري. يضع Florence-2 معياراً جديداً للأداء في سيناريو التعلم بصفر عينة (zero-shot)، مما يعني أنه يمكنه أداء المهام دون تدريب مسبق محدد، ويتميز بحجم نموذج أصغر مقارنة بنماذج اللغة البصرية الأخرى الرائدة.

إنه أكثر من مجرد نموذج آخر؛ فقدرة Florence-2 على التكيف وتحسين الأداء لديه القدرة على التأثير بشكل كبير على مختلف الصناعات من خلال تحسين الدقة وتقليل الحاجة إلى تدريب مكثف. في هذه المقالة، سنستكشف الميزات المبتكرة لنموذج Florence-2، ونقارن أداءه مع نماذج VLM الأخرى، ونناقش تطبيقاته المحتملة.

Link to this sectionما هو Florence-2؟#

يمكن لنموذج Florence-2 التعامل مع مجموعة متنوعة من المهام ضمن إطار عمل واحد موحد. وتعود القدرات المذهلة للنموذج جزئياً إلى مجموعة بيانات التدريب الضخمة الخاصة به التي تسمى FLD-5B. تحتوي FLD-5B على 5.4 مليار تعليق توضيحي عبر 126 مليون صورة. تم إنشاء مجموعة البيانات الشاملة هذه خصيصاً لتمكين Florence-2 من القدرات اللازمة للتعامل مع مجموعة واسعة من مهام الرؤية بدقة وكفاءة عاليتين.

إليك نظرة فاحصة على المهام التي يدعمها Florence-2:

اكتشاف الكائنات: يمكنه تحديد وتعيين مواقع الكائنات داخل الصور بدقة عالية.
التجزئة: تتضمن هذه المهمة تقسيم الصورة إلى أجزاء ذات معنى لتسهيل التحليل والتفسير.
وصف الصور: Florence-2 قادر على إنشاء تعليقات توضيحية وصفية للصور توفر السياق والتفاصيل.
التأريض البصري: يمكن للنموذج ربط عبارات أو كلمات محددة في التعليق التوضيحي بالمناطق المقابلة في الصورة.
أداء التعلم بصفر عينة (Zero-shot): يمكنه أداء المهام دون تدريب محدد.

رسم توضيحي لكيفية تدريب نموذج Florence-2

الشكل 1. فهم كيفية تدريب Florence-2.

يدعم النموذج كلاً من المهام القائمة على النص والمهام القائمة على المناطق. تُضاف رموز موقع خاصة إلى مفردات النموذج للمهام التي تتضمن مناطق محددة من الصورة. تساعد هذه الرموز النموذج على فهم الأشكال المختلفة، مثل المستطيلات حول الكائنات (تمثيل الصندوق)، والأشكال رباعية الجوانب (تمثيل الصندوق الرباعي)، والأشكال متعددة الجوانب (تمثيل المضلع). يتم تدريب النموذج باستخدام طريقة تسمى خسارة الإنتروبيا المتقاطعة (cross-entropy loss)، والتي تساعده على التعلم من خلال مقارنة توقعاته بالإجابات الصحيحة وتعديل معاملاته الداخلية وفقاً لذلك.

Link to this sectionإنشاء مجموعة بيانات FLD-5B#

تتضمن مجموعة بيانات FLD-5B أنواعاً مختلفة من التعليقات التوضيحية: أوصاف نصية، وأزواج من المناطق والنصوص، وتوليفات من النصوص والعبارات والمناطق. تم إنشاؤها من خلال عملية من خطوتين تتضمن جمع البيانات والتعليق التوضيحي. تم الحصول على الصور من مجموعات بيانات شهيرة مثل ImageNet-22k، وObject 365، وOpen Images، وConceptual Captions، وLAION. التعليقات التوضيحية في مجموعة بيانات FLD-5B هي في الغالب اصطناعية، مما يعني أنها تم إنشاؤها تلقائياً بدلاً من وضعها يدوياً.

رسم توضيحي لإنشاء مجموعة بيانات FLD-5B

الشكل 2. إنشاء مجموعة بيانات FLD-5B.

في البداية، قامت نماذج متخصصة ماهرة في مهام معينة، مثل اكتشاف الكائنات أو التجزئة، بإنشاء هذه التعليقات التوضيحية. ثم تم استخدام عملية ترشيح وتحسين للتأكد من أن التعليقات التوضيحية مفصلة ودقيقة. بعد إزالة أي ضجيج، خضعت مجموعة البيانات لتحسين متكرر، حيث تم استخدام مخرجات Florence-2 لتحديث وتحسين التعليقات التوضيحية باستمرار.

Link to this sectionفهم بنية نموذج Florence-2#

تتبع بنية نموذج Florence-2 نهج التعلم من تسلسل إلى تسلسل (sequence-to-sequence). وهذا يعني أن النموذج يعالج تسلسلاً مدخلاً (مثل صورة مع مطالبة نصية) ويولد تسلسلاً مخرجاً (مثل وصف أو تصنيف) بطريقة تدريجية. في إطار العمل من تسلسل إلى تسلسل، يتم التعامل مع كل مهمة كمشكلة ترجمة: يأخذ النموذج صورة مدخلة ومطالبة خاصة بالمهمة ويولد المخرجات المقابلة.

رسم توضيحي لهيكلية نموذج الرؤية واللغة Florence-2

الشكل 3. بنية النموذج اللغوي البصري Florence-2.

في جوهر بنية النموذج يوجد محول (Transformer) متعدد الوسائط من نوع مشفر-فك تشفير (encoder-decoder)، والذي يجمع بين مشفر الصور ومشفر-فك تشفير متعدد الوسائط. يقوم مشفر الصور، المسمى DaViT (Data-efficient Vision Transformer)، بمعالجة الصور المدخلة عن طريق تحويلها إلى تضمينات رموز مرئية - وهي تمثيلات مضغوطة للصورة تلتقط كلاً من المعلومات المكانية (أين توجد الأشياء) والمعلومات الدلالية (ما هي الأشياء). يتم بعد ذلك دمج هذه الرموز المرئية مع تضمينات النص (تمثيلات النص)، مما يسمح للنموذج بدمج البيانات النصية والبصرية بسلاسة.

Link to this sectionمقارنة Florence-2 مع نماذج VLM الأخرى#

يبرز Florence-2 عن غيره من النماذج اللغوية البصرية بفضل قدراته الرائعة في التعلم بصفر عينة (zero-shot). على عكس نماذج مثل PaliGemma، التي تعتمد على ضبط دقيق مكثف للتكيف مع مهام مختلفة، يعمل Florence-2 بشكل جيد بمجرد استخدامه. أيضاً، يستطيع Florence-2 منافسة نماذج أكبر مثل GPT-4V وFlamingo، والتي غالباً ما تحتوي على عدد أكبر بكثير من المعلمات ولكنها لا تضاهي دائماً أداء Florence-2. على سبيل المثال، يحقق Florence-2 نتائج أفضل في سيناريو صفر عينة مقارنة بـ Kosmos-2، على الرغم من أن Kosmos-2 يحتوي على أكثر من ضعف عدد المعلمات.

في اختبارات القياس، أظهر Florence-2 أداءً ملحوظاً في مهام مثل التعليق التوضيحي لـ COCO وفهم التعبيرات المرجعية. وقد تفوق على نماذج مثل PolyFormer وUNINEXT في مهام اكتشاف الكائنات والتجزئة على مجموعة بيانات COCO. إنه خيار تنافسي للغاية للتطبيقات الواقعية حيث يكون الأداء وكفاءة الموارد أمراً حاسماً.

Link to this sectionتطبيقات Florence-2#

يمكن استخدام Florence-2 في العديد من الصناعات المختلفة، مثل الترفيه، وإمكانية الوصول، والتعليم، وما إلى ذلك. دعنا نستعرض بضعة أمثلة للحصول على فهم أفضل.

Link to this sectionتطبيقات وصف الصور#

عندما تكون على منصة بث وتحاول تحديد ما ستشاهده، قد تقرأ ملخصاً لفيلم لمساعدتك في الاختيار. ماذا لو كانت المنصة قادرة أيضاً على تقديم وصف تفصيلي لملصق الفيلم؟ يمكن لـ Florence-2 جعل ذلك ممكناً من خلال وصف الصور، والذي يولد نصاً وصفياً للصور. يمكن لـ Florence-2 إنشاء أوصاف تفصيلية لملصقات الأفلام، مما يجعل منصات البث أكثر شمولاً للمستخدمين ضعاف البصر. من خلال تحليل العناصر المرئية للملصق، مثل الشخصيات والمناظر والنصوص، يمكن لـ Florence-2 إنشاء أوصاف تفصيلية تنقل محتوى الملصق وحالته المزاجية. تُظهر الصورة أدناه مستوى التفاصيل التي يمكن لـ Florence-2 توفيرها في وصفه.

مثال على وصف صورة تم إنشاؤه بواسطة Florence-2

الشكل 4. مثال على وصف صورة تم إنشاؤه بواسطة Florence-2.

إليك بعض الأمثلة الأخرى حيث يمكن أن يكون وصف الصور مفيداً:

التجارة الإلكترونية: يمكن لوصف الصور توفير أوصاف تفصيلية لصور المنتجات، مما يساعد العملاء على فهم ميزات وتفاصيل المنتج بشكل أوضح.
السفر والسياحة: يمكن أن يوفر أوصافاً تفصيلية للمعالم وأماكن الجذب السياحي في أدلة وتطبيقات السفر.
التعليم: يمكن لوصف الصور تسمية ووصف الصور والمخططات التعليمية، مما يساعد في التدريس والتعلم.
العقارات: يمكن أن يوفر أوصافاً تفصيلية لصور العقارات التي تبرز الميزات والمرافق للمشترين المحتملين.

Link to this sectionاستخدام التأريض البصري أثناء الطهي#

يمكن أيضاً استخدام Florence-2 لإثراء تجارب الطهي. على سبيل المثال، يمكن لكتاب طبخ عبر الإنترنت استخدام Florence-2 لتأريض وتسمية أجزاء من صورة وصفة معقدة بصرياً. يساعد التأريض البصري هنا من خلال ربط أجزاء محددة من الصورة بالنص الوصفي المقابل. يمكن تسمية وشرح كل مكون وخطوة بدقة، مما يسهل على الطهاة المنزليين اتباع الوصفة وفهم دور كل مكون في الطبق.

مثال على التأريض البصري باستخدام Florence-2

الشكل 5. مثال على التأريض البصري باستخدام Florence-2.

Link to this sectionالتعرف الضوئي على الحروف (OCR) القائم على المناطق للمستندات المالية#

يمكن أن يكون OCR مع المعالجة القائمة على المناطق، والتي تركز على استخراج النص من مناطق محددة داخل مستند، مفيداً عندما يتعلق الأمر بمجالات مثل المحاسبة. يمكن تحليل مناطق محددة من المستندات المالية لاستخراج المعلومات المهمة تلقائياً مثل تفاصيل المعاملات، وأرقام الحسابات، وتواريخ الاستحقاق. من خلال تقليل الحاجة إلى إدخال البيانات يدوياً، فإنه يقلل من الأخطاء ويسرع أوقات المعالجة. يمكن للمؤسسات المالية استخدامه لتبسيط مهام مثل معالجة الفواتير، وتسوية الإيصالات، ومقاصة الشيكات، مما يؤدي إلى معاملات أسرع وخدمة عملاء أفضل.

مثال على التعرف الضوئي على الحروف (OCR) مع تحديد المنطقة باستخدام Florence-2

الشكل 6. مثال على استخراج OCR مع المنطقة باستخدام Florence-2.

Link to this sectionالتجزئة القائمة على المناطق في التطبيقات الصناعية#

يمكن للتجزئة القائمة على المناطق، والتي تتضمن تقسيم الصورة إلى أجزاء ذات معنى للتحليل المركز والفحص التفصيلي، أن تعزز التطبيقات الصناعية التي تحسن الدقة والكفاءة في العمليات المختلفة. من خلال التركيز على مناطق محددة داخل الصورة، تسمح هذه التقنية بالفحص والتحليل التفصيلي للمكونات والمنتجات. فيما يتعلق بمراقبة الجودة، يمكنها تحديد العيوب أو التناقضات في المواد، مثل الشقوق أو عدم المحاذاة، مما يضمن وصول المنتجات عالية الجودة فقط إلى السوق.

مثال على التجزئة القائمة على المنطقة باستخدام Florence-2

الشكل 7. مثال على التجزئة القائمة على المناطق باستخدام Florence-2.

كما أنها تعمل على تحسين خطوط التجميع الآلية من خلال توجيه الأذرع الروبوتية إلى أجزاء معينة وتحسين وضع وتجميع المكونات. وبالمثل، في إدارة المخزون، تساعد في تتبع ومراقبة حالة وموقع البضائع، مما يؤدي إلى لوجستيات أكثر كفاءة وتقليل وقت التوقف عن العمل. بشكل عام، تعمل التجزئة القائمة على المناطق على تعزيز الدقة والإنتاجية، مما يؤدي إلى توفير التكاليف وجودة أعلى للمنتج في البيئات الصناعية.

Link to this sectionأبرز النقاط#

بدأنا نرى توجهاً حيث أصبحت نماذج الذكاء الاصطناعي أخف وزناً مع الحفاظ على أداء عالٍ. يمثل Florence-2 خطوة كبيرة إلى الأمام من حيث النماذج اللغوية البصرية. يمكنه التعامل مع مهام مختلفة مثل اكتشاف الكائنات، والتجزئة، ووصف الصور، والتأريض بأداء مذهل في التعلم بصفر عينة (zero-shot). على الرغم من صغر حجمه، فإن Florence-2 فعال ومتعدد الوظائف، مما يجعله مفيداً للغاية من حيث التطبيقات عبر صناعات مختلفة. تقدم نماذج مثل Florence-2 المزيد من الاحتمالات، مما يوسع إمكانات ابتكارات الذكاء الاصطناعي.

اكتشف المزيد حول الذكاء الاصطناعي من خلال زيارة مستودع GitHub الخاص بنا والانضمام إلى مجتمعنا. تحقق من صفحات الحلول الخاصة بنا للقراءة عن تطبيقات الذكاء الاصطناعي في التصنيع والزراعة. 🚀

Explore solutions

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

Florence-2: أحدث نموذج للغة المرئية من Microsoft

Link to this sectionما هو Florence-2؟#

Link to this sectionإنشاء مجموعة بيانات FLD-5B#

Link to this sectionفهم بنية نموذج Florence-2#

Link to this sectionمقارنة Florence-2 مع نماذج VLM الأخرى#

Link to this sectionتطبيقات Florence-2#

Link to this sectionتطبيقات وصف الصور#

Link to this sectionاستخدام التأريض البصري أثناء الطهي#

Link to this sectionالتعرف الضوئي على الحروف (OCR) القائم على المناطق للمستندات المالية#

Link to this sectionالتجزئة القائمة على المناطق في التطبيقات الصناعية#

Link to this sectionأبرز النقاط#

Explore solutions

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

لنبنِ مستقبل الذكاء الاصطناعي معاً!