تعلّم كيف تعمل الرموز، وهي اللبنات الأساسية لنماذج الذكاء الاصطناعي، على تشغيل البرمجة اللغوية العصبية والرؤية الحاسوبية ومهام مثل تحليل المشاعر واكتشاف الأشياء.
في الذكاء الاصطناعي، الرمز المميز هو الوحدة الأساسية المنفصلة للبيانات التي يعالجها النموذج. قبل أن يتمكن نموذج الذكاء الاصطناعي من تحليل نص أو صورة، يجب تقسيم البيانات الأولية إلى هذه الأجزاء التي يمكن التحكم فيها. بالنسبة لنموذج اللغة، يمكن أن يكون الرمز كلمة أو جزءًا من كلمة (كلمة فرعية) أو حرفًا واحدًا. بالنسبة لنموذج الرؤية الحاسوبية (CV) ، يمكن أن يكون الرمز المميز رقعة صغيرة ثابتة الحجم من الصورة. تُعد عملية تقسيم البيانات هذه خطوة أولى حاسمة في خط أنابيب المعالجة المسبقة للبيانات، حيث إنها تحوّل البيانات المعقدة وغير المنظمة إلى تنسيق منظم يمكن للشبكات العصبية فهمه.
من الضروري التمييز بين "الرمز المميز" و"الترميز".
باختصار، الترميز هو الفعل، والرمز هو نتيجة هذا الفعل.
الرموز هي اللبنات الأساسية لكيفية إدراك نماذج الذكاء الاصطناعي للبيانات وتفسيرها. بمجرد ترميز البيانات، عادةً ما يتم تعيين كل رمز رمزي إلى تمثيل متجه رقمي يسمى التضمين. وتلتقط هذه التضمينات المعنى الدلالي والسياق، مما يسمح للنماذج المبنية باستخدام أطر عمل مثل PyTorch أو TensorFlow بتعلم الأنماط المعقدة.
رموز الكلمات والكلمات الفرعية: في معالجة اللغات الطبيعية (NLP)، يمكن أن يؤدي استخدام كلمات كاملة كرموز إلى مفردات هائلة ومشاكل مع الكلمات غير المعروفة. ويُعد ترميز الكلمات الفرعية، باستخدام خوارزميات مثل ترميز أزواج البايت (BPE) أو WordPiece، حلاً شائعًا. فهو يقسم الكلمات النادرة إلى أجزاء أصغر ذات معنى. على سبيل المثال، قد تصبح كلمة "tokenization" رمزين: "ترميز" و"##رمز". هذا النهج، الذي تستخدمه نماذج مثل BERT و GPT-4، يساعد النموذج على التعامل مع المفردات المعقدة والتراكيب النحوية. يمكنك استكشاف التطبيقات الحديثة في مكتبات مثل Hugging Face Tokenizers.
الرموز المرئية: يمتد مفهوم الرموز البصرية إلى ما هو أبعد من النص إلى الرؤية الحاسوبية. في نماذج مثل محول الرؤية (ViT)، يتم تقسيم الصورة إلى شبكة من الرقع (على سبيل المثال، 16 × 16 بكسل). يتم تسطيح كل رقعة ومعاملتها على أنها "رمز مرئي". وهذا يسمح لبنى المحولات القوية، التي تتفوق في معالجة التسلسلات باستخدام الانتباه الذاتي، بأداء مهام مثل تصنيف الصور واكتشاف الأجسام. هذا النهج القائم على الرمز المميز أساسي أيضًا للنماذج متعددة الوسائط التي تفهم الصور والنصوص على حد سواء، مثل CLIP.
يعد استخدام الرموز أمرًا أساسيًا في عدد لا يحصى من أنظمة الذكاء الاصطناعي، بدءًا من التطبيقات البسيطة إلى النماذج المعقدة والمتطورة.
الترجمة الآلية: تعتمد خدمات مثل ترجمة Google Translate بشكل كبير على الرموز. عند إدخال جملة، يتم تقسيمها أولاً إلى سلسلة من الرموز النصية. يقوم نموذج متطور من تسلسل إلى تسلسل بمعالجة هذه الرموز، ويفهم معناها الجماعي، ويُنشئ تسلسلًا جديدًا من الرموز في اللغة الهدف. ثم يتم تجميع هذه الرموز الناتجة مرة أخرى في جملة مترابطة مترجمة. تتيح هذه العملية الترجمة في الوقت الفعلي عبر عشرات اللغات.
المركبات ذاتية القيادة: في مجال المركبات ذاتية القيادة، يجب على النماذج تفسير المشاهد المرئية المعقدة في الوقت الفعلي. يقوم نموذج مثل Ultralytics YOLO11 بمعالجة موجزات الكاميرا لأداء مهام مثل تتبع الكائنات وتجزئة المثيل. في حين أن النماذج الكلاسيكية القائمة على شبكة CNN مثل YOLO لا تستخدم "الرموز" صراحةً بنفس طريقة المحولات، فإن متغيرات محولات الرؤية المصممة للكشف تفعل ذلك. فهي تقوم بتقسيم المدخلات المرئية إلى رموز (بقع) لتحديد وتحديد موقع المشاة والمركبات الأخرى وإشارات المرور بدقة عالية. هذا الفهم الرمزي للبيئة أمر بالغ الأهمية للتنقل الآمن. يمكن تبسيط إدارة سير العمل بالكامل، من جمع البيانات إلى نشر النموذج، باستخدام منصات مثل Ultralytics HUB.