اكتشف كيف تحدث نماذج اللغة الكبيرة (LLMs) ثورة في الذكاء الاصطناعي من خلال معالجة اللغة الطبيعية المتقدمة (NLP)، مما يدعم روبوتات الدردشة وإنشاء المحتوى والمزيد. تعرف على المفاهيم الأساسية!
النموذج اللغوي الكبير (LLM) هو نوع متطور من خوارزمية ذكاء اصطناعي (AI) متطورة التي تطبّق تقنيات التعلّم العميق من أجل لفهم المحتوى الجديد وتلخيصه وإنشائه والتنبؤ به. يتم تدريب هذه النماذج على مجموعات بيانات ضخمة تضم مليارات الكلمات من الكتب والمقالات والمواقع الإلكترونية، مما يسمح لها بفهم الفروق الدقيقة في اللغة البشرية. من الأمور المحورية في وظيفة LLM هي بنية المحول, والتي تستخدم آلية انتباه ذاتية لتقييم أهمية الكلمات المختلفة في تسلسل ما، مما يسهل فهم سياق الجمل الطويلة و والفقرات الطويلة. هذه القدرة تجعل منها حجر الزاوية في معالجة اللغة الطبيعية (NLP) الحديثة.
ينطوي تطوير برنامج LLM على مرحلتين أساسيتين: ما قبل التدريب و والضبط الدقيق. أثناء التدريب المسبق، يشارك النموذج في التعلّم غير الخاضع للإشراف على مجموعة واسعة من من النصوص غير الموسومة لتعلم القواعد والحقائق والقدرات المنطقية. تعتمد هذه العملية بشكل كبير على الترميز، حيث يتم تقسيم النص إلى وحدات أصغر أصغر تسمى الرموز. بعد ذلك، يقوم المطورون بتطبيق الضبط الدقيق باستخدام بيانات التدريب لتكييف النموذج لمهام محددة, مثل التشخيص الطبي أو التحليل القانوني. منظمات مثل مركز ستانفورد للأبحاث حول النماذج التأسيسية (CRFM) classify هذه الأنظمة القابلة للتكيف كنماذج تأسيسية نظراً قابليتها للتطبيق على نطاق واسع.
لقد انتقلت برمجيات LLM من مختبرات الأبحاث إلى أدوات عملية تعمل على تشغيل عدد لا يحصى من التطبيقات في مختلف الصناعات. وقد أدت قدرتها على توليد نص متماسك ومعالجة المعلومات إلى اعتمادها على نطاق واسع.
في حين أن ماجستير LLM متخصص في النصوص، فإن المجال يتطور نحو الذكاء الاصطناعي متعدد الوسائط، والذي يدمج النص مع أنواع أخرى من البيانات مثل الصور والصوت. وهذا يسد الفجوة بين النمذجة اللغوية و الرؤية الحاسوبية (CV). على سبيل المثال, نماذج لغة الرؤية (VLMs) تحليل صورة ما والإجابة عن الأسئلة المتعلقة بها.
في هذا السياق، نماذج اكتشاف الأجسام مثل Ultralytics YOLO11 الفهم البصري الذي يكمّل الاستدلال النصي لنموذج LLM. تتيح النماذج المتخصصة مثل YOLO تسمح للمستخدمين detect الأشياء باستخدام مطالبات نصية ذات مفردات مفتوحة، مما يجمع بشكل فعال بين المفاهيم اللغوية والتعرف البصري.
from ultralytics import YOLOWorld
# Load a YOLO-World model capable of understanding text prompts
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text
model.set_classes(["person wearing a hat", "red backpack"])
# Run inference to detect these specific text-defined objects
results = model("path/to/image.jpg")
# Display the detection results
results[0].show()
على الرغم من قوتها، إلا أنها تواجه تحديات كبيرة. يمكن أن تظهر التحيز في الذكاء الاصطناعي المستمد من بيانات التدريب الخاصة بها، مما يؤدي إلى مخرجات غير عادلة أو منحرفة. بالإضافة إلى ذلك، حفزت التكلفة الحسابية الهائلة لتشغيل هذه النماذج البحث في تكميم الن ماذج وتحسينها لجعلها أكثر كفاءة على أجهزة مثل تلك الموجودة في NVIDIA. إن فهم هذه القيود أمر بالغ الأهمية لنشر الذكاء الاصطناعي التوليدي بشكل مسؤول.
للمزيد من القراءة حول البنية التأسيسية لـ LLMs، فإن ورقة الانتباه هو كل ما تحتاجه يوفر التعريف الأصلي لـ نموذج المحول. يمكن العثور على موارد إضافية حول النماذج على مستوى المؤسسات من خلال IBM Research و Google ديب مايند.