Tokenization

استكشف كيف يحول الترميز (tokenization) النصوص الخام والصور إلى بيانات جاهزة للذكاء الاصطناعي. تعلم أساليب معالجة اللغات الطبيعية والرؤية الحاسوبية التي تستخدمها نماذج مثل Ultralytics YOLO26.

الترميز هو عملية خوارزمية تهدف إلى تقسيم تدفق من البيانات الخام—مثل النصوص، أو الصور، أو الصوت—إلى وحدات أصغر وقابلة للإدارة تُسمى رموزًا (tokens). يعمل هذا التحول كجسر حيوي في خط معالجة البيانات، حيث يحول المدخلات غير المهيكلة إلى تنسيق عددي يمكن لأنظمة الذكاء الاصطناعي (AI) تفسيره. لا تستطيع أجهزة الكمبيوتر فهم اللغة البشرية أو المشاهد المرئية بطبيعتها؛ فهي تتطلب تمثيلات عددية لإجراء الحسابات. من خلال تقسيم البيانات إلى رموز، يمكّن المهندسون الشبكات العصبية من تعيين هذه الوحدات إلى تضمينات—وهي تمثيلات متجهة تلتقط المعنى الدلالي. بدون هذه الخطوة الأساسية، لن تتمكن نماذج التعلم الآلي من تحديد الأنماط، أو تعلم السياق، أو معالجة مجموعات البيانات الضخمة المطلوبة للتدريب الحديث.

Link to this sectionالترميز مقابل الرمز#

على الرغم من أن المصطلحين يُسمعان غالبًا معًا في مناقشات التعلم العميق، فمن المفيد التمييز بين الطريقة والنتيجة لفهم سير العمل.

الترميز هو العملية (الفعل). ويشير إلى مجموعة القواعد أو الخوارزميات المحددة المستخدمة لتقسيم البيانات. بالنسبة للنصوص، قد يتضمن ذلك استخدام مكتبات مثل NLTK أو spaCy لتحديد أين تنتهي وحدة وأين تبدأ أخرى.
الرمز هو المخرج (الاسم). وهو الوحدة الفردية التي يتم إنتاجها بواسطة العملية، مثل كلمة واحدة، أو جزء من كلمة، أو حرف، أو رقعة من البكسلات.

Link to this sectionالطرق عبر المجالات المختلفة#

تختلف استراتيجية الترميز بشكل كبير اعتمادًا على نمط البيانات، مما يؤثر على كيفية إدراك النموذج التأسيسي للعالم.

Link to this sectionترميز النصوص في معالجة اللغات الطبيعية#

في معالجة اللغات الطبيعية (NLP)، الهدف هو تقسيم النص مع الحفاظ على المعنى. اعتمدت الطرق المبكرة على تقنيات بسيطة مثل فصل الكلمات بمسافات أو إزالة كلمات التوقف. ومع ذلك، تستخدم نماذج اللغات الكبيرة (LLMs) الحديثة خوارزميات أكثر تعقيدًا لأجزاء الكلمات، مثل ترميز أزواج البايت (BPE) أو WordPiece. تقوم هذه الخوارزميات بدمج أزواج الأحرف الأكثر تكرارًا بشكل تكراري، مما يسمح للنموذج بالتعامل مع الكلمات النادرة عن طريق تقسيمها إلى مكونات فرعية مألوفة (على سبيل المثال، تصبح "smartphones" هي "smart" + "phones"). يوازن هذا النهج بين حجم المفردات والقدرة على تمثيل لغة معقدة.

Link to this sectionالترميز المرئي في الرؤية الحاسوبية#

تقليديًا، قامت نماذج الرؤية الحاسوبية (CV) مثل CNN بمعالجة البكسلات باستخدام نوافذ منزلقة. غيّر تقديم محول الرؤية (ViT) هذا النموذج من خلال تطبيق الترميز على الصور. يتم تقطيع الصورة إلى رقع ذات حجم ثابت (على سبيل المثال، 16x16 بكسل)، والتي يتم بعد ذلك تسويتها وإسقاطها خطيًا. تسمح هذه "الرموز المرئية" للنموذج باستخدام آليات الانتباه الذاتي لتعلم العلاقات العالمية عبر الصورة، على غرار كيفية معالجة Transformer للجملة.

Link to this sectionتطبيقات العالم الحقيقي#

الترميز هو المحرك الصامت وراء العديد من تطبيقات الذكاء الاصطناعي المستخدمة في بيئات الإنتاج اليوم.

اكتشاف الكائنات بكلمات غير محدودة (Open-Vocabulary): تستخدم البنيات المتقدمة مثل YOLO-World نهج النموذج متعدد الوسائط. عندما يقوم المستخدم بإدخال طلب مثل "شخص يرتدي قبعة حمراء"، يقوم النظام بترميز هذا النص وتعيينه إلى نفس مساحة الميزات الخاصة بالبيانات المرئية. وهذا يتيح التعلم بدون أمثلة (zero-shot learning)، مما يسمح للنموذج باكتشاف كائنات لم يتم تدريبه عليها بشكل صريح من خلال مطابقة رموز النص مع الميزات المرئية.
الفن والتصميم التوليدي: في التوليد من نص إلى صورة، يتم ترميز طلبات المستخدم لتوجيه عملية الانتشار. يستخدم النموذج هذه الرموز لتكييف التوليد، مما يضمن توافق الصورة الناتجة مع المفاهيم الدلالية (مثل "غروب الشمس"، "شاطئ") المستخرجة خلال مرحلة الترميز.

Link to this sectionمثال Python: الاكتشاف القائم على الرموز#

يوضح المثال التالي كيف تستخدم حزمة ultralytics ترميز النص ضمنيًا في سير عمل YOLO-World. من خلال تحديد فئات مخصصة، يقوم النموذج بترميز هذه السلاسل النصية للبحث عن كائنات محددة ديناميكيًا.

from ultralytics import YOLO

# Load a pre-trained YOLO-World model capable of text-based detection
model = YOLO("yolov8s-world.pt")

# Define custom classes; these are tokenized internally to guide the model
# The model will look for visual features matching these text tokens
model.set_classes(["backpack", "bus"])

# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results (only detects the tokenized classes defined above)
results[0].show()

Link to this sectionالتأثير على أداء النموذج#

يؤثر اختيار استراتيجية الترميز بشكل مباشر على الدقة وكفاءة الحوسبة. يمكن أن يؤدي الترميز غير الفعال إلى أخطاء "خارج المفردات" في NLP أو فقدان التفاصيل الدقيقة في تحليل الصور. توفر أطر العمل مثل PyTorch و TensorFlow أدوات مرنة لتحسين هذه الخطوة. مع تطور البنيات—مثل YOLO26 المتطور—تضمن معالجة البيانات بكفاءة قدرة النماذج على تشغيل الاستدلال في الوقت الفعلي على أجهزة متنوعة، بدءًا من وحدات معالجة الرسومات السحابية القوية وصولاً إلى أجهزة الحافة. تعتمد الفرق التي تدير سير عمل البيانات المعقدة هذه غالبًا على منصة Ultralytics لتبسيط عمليات تعليق البيانات، وتدريب النموذج، والنشر.