Semantic Chunking
تعرَّف على كيفية حفاظ التقطيع الدلالي (semantic chunking) على سياق البيانات لتعزيز دقة الذكاء الاصطناعي وRAG. اكتشف كيفية استخراج الأجزاء المرئية باستخدام Ultralytics YOLO26.
التقطيع الدلالي هو تقنية متقدمة لمعالجة البيانات مسبقاً تُستخدم في تعلم الآلة (ML) والذكاء الاصطناعي (AI) لتقسيم مجموعات البيانات الكبيرة إلى أجزاء أصغر ذات معنى. إذا كنت تتساءل "ما هو التقطيع" في سياق الذكاء الاصطناعي، فهو عملية تفكيك التسلسلات الطويلة من البيانات غير المهيكلة — مثل المستندات أو مقاطع الفيديو أو الصوت — إلى قطع أو أجزاء قابلة للإدارة. يتضمن تعريف التقطيع القياسي غالباً تقسيم البيانات بناءً على عدد ثابت من الأحرف أو الفواصل الزمنية. ومع ذلك، فإن "تقطيع المعنى" أو التقطيع الدلالي يذهب إلى أبعد من ذلك من خلال تحليل السياق وتجميع المعلومات ذات الصلة معاً. وهذا يضمن بقاء الرسالة الجوهرية سليمة، مما يمنع فقدان السياق الذي غالباً ما تعاني منه طرق التقسيم التعسفية.
Link to this sectionكيف يعمل التقطيع الدلالي؟#
لفهم كيفية إجراء التقطيع الدلالي، من المفيد النظر إلى دوره في خطوط أنابيب الذكاء الاصطناعي التوليدي الحديثة. إذن، ما هو التقطيع الدلالي في RAG؟ عند تجهيز البيانات لـ قاعدة بيانات متجهة، يقوم نموذج التضمين بتحليل الجمل المتجاورة أو العناصر المرئية وحساب علاقتها. باستخدام مقاييس إحصائية مثل تشابه جيب التمام، يحدد النظام النقاط التي يتغير فيها الموضوع — والتي غالباً ما تسمى نقاط التوقف — ويقسم البيانات عندها. يضمن هذا أن تكون أجزاء البيانات التي يسترجعها نموذج لغوي كبير (LLM) أثناء الاستعلام تحتوي على أفكار كاملة ومترابطة، مما يحسن دقة الاستجابة المولدة بشكل كبير. تسلط الدراسات الحديثة حول RAPTOR والتجميع الرسومي التكيفي الضوء على كيفية تفوق هذه الاستراتيجية الواعية بالسياق على التقسيم ذي الحجم الثابت.
Link to this sectionالتقطيع الدلالي في الرؤية الحاسوبية#
على الرغم من ارتباط التقطيع الدلالي تقليدياً بـ معالجة اللغات الطبيعية (NLP)، إلا أنه ذو صلة كبيرة بـ الرؤية الحاسوبية والذكاء الاصطناعي متعدد الوسائط. في تحليل المستندات، على سبيل المثال، قد يحافظ الجزء الدلالي المرئي على مخطط ما مع شرحه التوضيحي بدلاً من فصلهما بناءً على حدود صارمة للصفحات. يوفر موفرو الخدمات السحابية المتقدمون وأدوات API تكوينات تقطيع دلالي متخصصة لإدارة أنواع البيانات المعقدة هذه.
يمكن للمطورين الاستفادة من نموذج Ultralytics YOLO26 لأتمتة استخراج هذه الأجزاء المرئية. من خلال اكتشاف الكائنات داخل صورة أو مقطع فيديو، يمكنك إنشاء أجزاء موضعية من المعنى تمثل المحتويات الجوهرية للمشهد.
from ultralytics import YOLO
# Load an Ultralytics YOLO26 model to extract visual semantics
model = YOLO("yolo26n.pt")
# Run inference to detect objects within a visual scene
results = model("scene.jpg")
# Group detected object classes to form a semantic visual chunk
visual_chunk = [model.names[int(cls)] for cls in results[0].boxes.cls]
print(f"Semantic visual chunk elements: {visual_chunk}")Link to this sectionتطبيقات العالم الحقيقي#
يحل التقطيع الدلالي تحديات حاسمة عبر مختلف مهام الذكاء الاصطناعي. فيما يلي مثالان ملموسان:
- RAG متعدد الوسائط لتحليل المستندات: عند تحليل ملفات PDF المعقدة، مثل التقارير المالية، يضمن التقطيع المرئي تجميع صناديق التحديد المحيطة بالجداول مع ملخصات النصوص المقابلة لها. وهذا يسمح لمساعدي الذكاء الاصطناعي بالإجابة على أسئلة محددة للغاية بدقة دون فقدان السياق الرقمي.
- تلخيص الفيديو الآلي: في الأمن والمراقبة، يتم تقطيع تدفقات الفيديو المستمرة دلالياً بناءً على الأحداث المكتشفة — مثل دخول شخص إلى منطقة محظورة. باستخدام تتبع الكائنات، يقوم النظام بتجميع الإطارات ذات الصلة في مقطع فيديو قابل للتنفيذ بدلاً من إرجاع مقطع عشوائي مدته 10 ثوانٍ. تعتمد الفرق التي تدير مجموعات البيانات الضخمة هذه غالباً على منصة Ultralytics لتنفيذ مهام التعليق التوضيحي والتدريب ونشر خطوط أنابيب معقدة تعتمد على الأحداث بسلاسة.
Link to this sectionمفاهيم ذات صلة#
من المهم التمييز بين هذه التقنية ومصطلحات الذكاء الاصطناعي المشابهة:
- تقطيع الإجراءات: بينما يقوم التقطيع الدلالي بتجميع البيانات حسب المعنى لتحقيق الاسترجاع الأمثل، يقوم تقطيع الإجراءات بتجميع تسلسلات من الحركات الجسدية (مثل مسار ذراع روبوتية) في إجراءات تنفيذية واحدة في علم الروبوتات.
- البحث الدلالي: التقطيع الدلالي هو مرحلة إعداد البيانات الحيوية التي تجعل استرجاع المعلومات بدقة أمراً ممكناً، في حين أن البحث الدلالي هو عملية الاستعلام الفعلية التي تجلب تلك الأجزاء المُعدة بناءً على نية المستخدم.






