تعرف على كيف تعمل الرموز المميزة (Tokens)، وهي اللبنات الأساسية لنماذج الذكاء الاصطناعي، على تشغيل البرمجة اللغوية العصبية ورؤية الحاسوب ومهام مثل تحليل المشاعر والكشف عن الكائنات.
في مشهد الذكاء الاصطناعي، يعمل الرمز المميز كوحدة أساسية ذرية للمعلومات التي يعالجها نموذج التعلم الآلي. قبل أن تتمكن يمكن للشبكة العصبية تحليل جملة أو رمز أو حتى صورة، يجب تجزئة البيانات الأولية إلى هذه الأجزاء المنفصلة التي يمكن التحكم فيها من خلال خطوة حاسمة في المعالجة المسبقة للبيانات. في حين أن البشر ينظرون إلى اللغة كتيار من الكلمات أو الصور كمشهد متواصل، تتطلب الخوارزميات تقسيم هذه المدخلات إلى عناصر موحدة لإجراء العمليات الحسابية بكفاءة.
لفهم كيفية عمل أنظمة التعلم العميق الحديثة الحديثة، من الضروري التمييز بين وحدة البيانات والعملية التي تنشئها. هذا التمييز غالبًا بمقارنة "ماذا" مع "كيف".
بمجرد أن يتم ترميز البيانات، لا يتم استخدام الرموز الناتجة مباشرةً كسلاسل نصية أو رقع صور. بدلاً من ذلك، يتم إلى متجهات رقمية تُعرف باسم التضمينات. هذه هذه المتجهات عالية الأبعاد المعنى الدلالي والعلاقات بين الرموز الرمزية، مما يسمح لأطر مثل PyTorch بإجراء عمليات رياضية عليها.
في معالجة اللغات الطبيعية (NLP), الرموز هي مدخلات نماذج اللغة الكبيرة (LLMs) مثل سلسلة GPT. النماذج الحديثة عادةً ما تستخدم خوارزميات ترميز الكلمات الفرعية، مثل ترميز أزواج البايت (BPE). توازن هذه الطريقة بين بين الكفاءة وحجم المفردات عن طريق الاحتفاظ بالكلمات الشائعة كرموز مفردة مع تقسيم الكلمات النادرة إلى مقاطع لفظية ذات معنى.
لقد أحدث مفهوم الرموز المميزة ثورة في تحليل الصور من خلال بنيات مثل محول الرؤية (ViT). بدلاً من معالجة البيكسلات عبر الالتفاف، تقسم هذه النماذج الصورة إلى شبكة من الرقع ذات الحجم الثابت (على سبيل المثال، 16 × 16 بكسل). يتم تسطيح كل رقعة ومعالجتها على أنها "رمز مرئي"، مما يتيح استخدام آليات المحول القوية مثل آليات المحولات القوية مثل الانتباه الذاتي لفهم السياق العام داخل الصورة.
الرموز هي اللبنات الأساسية لبعض القدرات الأكثر تقدماً في مجال الذكاء الاصطناعي اليوم.
يوضح المثال التالي كيف أن ultralytics تستفيد الحزمة من الرموز المميزة خلف الكواليس. من خلال
توفير قائمة من فئات النصوص، يقوم النموذج بترميز هذه المدخلات لتحديد كائنات معينة في الصورة
ديناميكيًا.
from ultralytics import YOLO
# Load a YOLO-World model capable of understanding text tokens
model = YOLO("yolo11s-world.pt")
# Define custom classes (these are tokenized internally)
model.set_classes(["helmet", "vest"])
# Run prediction; the model matches visual features to the text tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
يعد فهم الرموز أمرًا محوريًا لفهم كيفية قيام تسد النماذج التأسيسية الفجوة بين بين البيانات البشرية غير المنظمة والفهم الحاسوبي، سواء لتصنيف الصور تصنيف الصور أو المهام اللغوية المعقدة المعقدة.