اكتشف قوة الترميز (tokenization) في البرمجة اللغوية العصبية (NLP) وتعلم الآلة! تعرف على كيف أن تقسيم النص إلى رموز يعزز مهام الذكاء الاصطناعي مثل تحليل المشاعر وتوليد النصوص.
الترميز هو عملية حسابية لتقسيم تدفق البيانات الأولية — مثل النصوص أو الصور أو الصوت — إلى وحدات أصغر يمكن إدارتها تسمى الرموز. يعمل هذا التحويل كجسر مهم في خط أنابيب المعالجة المسبقة للبيانات ، حيث يحول المدخلات غير المنظمة إلى تنسيق رقمي يمكن لأنظمة الذكاء الاصطناعي (AI) تفسيره. لا تستطيع أجهزة الكمبيوتر فهم اللغة البشرية أو المشاهد المرئية بطبيعتها؛ فهي تحتاج إلى تمثيلات رقمية لإجراء الحسابات. من خلال تقسيم البيانات إلى رموز، يمكّن المهندسون الشبكات العصبية من ربط هذه الوحدات بـ التضمينات- تمثيلات متجهة تلتقط المعنى الدلالي . بدون هذه الخطوة الأساسية، لن تتمكن نماذج التعلم الآلي من تحديد الأنماط أو تعلم السياق أو معالجة مجموعات البيانات الضخمة اللازمة للتدريب الحديث.
على الرغم من أن المصطلحين غالبًا ما يُستخدمان معًا في مناقشات التعلم العميق، إلا أنه من المفيد التمييز بين الطريقة والنتيجة لفهم سير العمل.
تختلف استراتيجية الترميز بشكل كبير اعتمادًا على طريقة البيانات، مما يؤثر على كيفية تصور النموذج الأساسي للعالم.
في معالجة اللغة الطبيعية (NLP)، الهدف هو segment مع الحفاظ على المعنى. كانت الطرق القديمة تعتمد على تقنيات بسيطة مثل فصل الكلمات بمسافات أو إزالة الكلمات الزائدة. ومع ذلك، فإن نماذج اللغة الكبيرة (LLMs) الحديثة تستخدم خوارزميات أكثر تطوراً للكلمات الفرعية، مثل ترميز أزواج البايتات (BPE) أو WordPiece. تدمج هذه الخوارزميات بشكل متكرر أزواج الأحرف الأكثر تكرارًا، مما يسمح للنموذج بمعالجة الكلمات النادرة عن طريق تقسيمها إلى مكونات فرعية مألوفة (على سبيل المثال، "الهواتف الذكية" تصبح "ذكية" + "هواتف"). هذا النهج يوازن بين حجم المفردات والقدرة على تمثيل اللغة المعقدة.
تقليديًا، كانت نماذج الرؤية الحاسوبية (CV) مثل CNNs تعالج البكسلات باستخدام نوافذ منزلقة. أدى إدخال Vision Transformer (ViT) إلى تغيير هذا النموذج من خلال تطبيق الترميز على الصور. يتم تقسيم الصورة إلى رقع ذات حجم ثابت (على سبيل المثال، 16x16 بكسل)، والتي يتم بعد ذلك تسويتها وإسقاطها خطيًا. تسمح هذه "الرموز البصرية" للنموذج باستخدام آليات الانتباه الذاتي لتعلم العلاقات الشاملة عبر الصورة، على غرار الطريقة التي يعالج بها Transformer الجملة.
الترميز هو المحرك الخفي وراء العديد من تطبيقات الذكاء الاصطناعي المستخدمة في بيئات الإنتاج اليوم.
يوضح المثال التالي كيف أن ultralytics تستخدم الحزمة ترميز النص ضمناً
ضمن سير عمل YOLO. من خلال تحديد فئات مخصصة، يقوم النموذج بترميز هذه السلاسل للبحث عن كائنات محددة
بشكل ديناميكي.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of text-based detection
model = YOLO("yolov8s-world.pt")
# Define custom classes; these are tokenized internally to guide the model
# The model will look for visual features matching these text tokens
model.set_classes(["backpack", "bus"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results (only detects the tokenized classes defined above)
results[0].show()
يؤثر اختيار استراتيجية الترميز بشكل مباشر على الدقة والكفاءة الحسابية. قد يؤدي الترميز غير الفعال إلى أخطاء "خارج المفردات" في معالجة اللغات الطبيعية أو فقدان التفاصيل الدقيقة في تحليل الصور . قد تؤدي أطر عمل مثل PyTorch و TensorFlow توفر أدوات مرنة لتحسين هذه الخطوة. مع تطور البنى —مثل YOLO26المتطورة—تضمن معالجة البيانات الفعالة قدرة النماذج على تشغيل الاستدلال في الوقت الفعلي على أجهزة متنوعة، من وحدات معالجة الرسومات السحابية القوية إلى الأجهزة الطرفية. غالبًا ما تعتمد الفرق التي تدير سير عمل البيانات المعقدة هذه على Ultralytics لتبسيط تعليق مجموعات البيانات وتدريب النماذج ونشرها.