Semantic Chunking
Apprends comment le découpage sémantique préserve le contexte des données pour améliorer la précision de l'IA et du RAG. Découvre comment extraire des segments visuels à l'aide d'Ultralytics YOLO26.
Le découpage sémantique est une technique avancée de prétraitement des données utilisée en machine learning (ML) et en intelligence artificielle (IA) pour diviser de grands jeux de données en segments plus petits et significatifs. Si tu te demandes "qu'est-ce que le découpage" (chunking) dans le contexte de l'IA, il s'agit du processus consistant à décomposer de longues séquences de données non structurées — comme des documents, des vidéos ou de l'audio — en pièces ou segments gérables. La définition standard du découpage implique souvent la division des données par un nombre fixe de caractères ou un intervalle de temps. Cependant, le "découpage par sens" ou découpage sémantique va plus loin en analysant le contexte et en regroupant les informations connexes. Cela garantit que le message central reste intact, évitant ainsi la perte de contexte qui pénalise souvent les méthodes de division arbitraires.
Link to this sectionComment fonctionne le découpage sémantique ?#
Pour comprendre comment effectuer un découpage sémantique, il est utile d'examiner son rôle dans les pipelines génératifs modernes. Alors, qu'est-ce que le découpage sémantique dans le cadre du RAG ? Lors de la préparation des données pour une base de données vectorielle, un modèle d'embedding analyse les phrases adjacentes ou les éléments visuels et calcule leur relation. En utilisant des mesures statistiques comme la similarité cosinus, le système identifie les points où le sujet change — souvent appelés points de rupture — et divise les données à cet endroit. Cela garantit que les segments de données récupérés par un Large Language Model (LLM) lors d'une requête contiennent des idées complètes et cohérentes, améliorant considérablement la précision de la réponse générée. Des études récentes sur RAPTOR et le clustering de graphes adaptatif soulignent comment cette stratégie consciente du contexte surpasse la division à taille fixe.
Link to this sectionLe découpage sémantique en vision par ordinateur#
Bien qu'il soit traditionnellement associé au Natural Language Processing (NLP), le découpage sémantique est hautement pertinent en computer vision et en IA multimodale. Dans l' analyse de documents, par exemple, un segment sémantique visuel peut maintenir ensemble un graphique et sa légende explicative plutôt que de les séparer selon des limites de page strictes. Les fournisseurs de cloud avancés et les outils d'API proposent des configurations de découpage sémantique spécialisées pour gérer ces types de données complexes.
Tu peux utiliser le modèle Ultralytics YOLO26 pour automatiser l'extraction de ces segments visuels. En détectant des objets au sein d'une image ou d'une vidéo, tu peux créer des segments de sens localisés qui représentent le contenu central de la scène.
from ultralytics import YOLO
# Load an Ultralytics YOLO26 model to extract visual semantics
model = YOLO("yolo26n.pt")
# Run inference to detect objects within a visual scene
results = model("scene.jpg")
# Group detected object classes to form a semantic visual chunk
visual_chunk = [model.names[int(cls)] for cls in results[0].boxes.cls]
print(f"Semantic visual chunk elements: {visual_chunk}")Link to this sectionApplications concrètes#
Le découpage sémantique résout des défis critiques dans divers flux de travail liés à l'IA. Voici deux exemples concrets :
- RAG multimodal pour l'IA documentaire : Lors de l'analyse de PDF complexes, comme des rapports financiers, le découpage visuel garantit que les bounding boxes entourant les tableaux sont regroupées avec leurs résumés textuels correspondants. Cela permet aux assistants IA de répondre précisément à des questions très spécifiques sans perdre le contexte numérique.
- Résumé vidéo automatisé : Dans la sécurité et la surveillance, les flux vidéo continus sont découpés sémantiquement en fonction d'événements détectés, comme une personne entrant dans une zone restreinte. En utilisant l' object tracking, le système regroupe les images pertinentes en un clip vidéo exploitable plutôt que de renvoyer une tranche aléatoire de 10 secondes. Les équipes gérant ces énormes jeux de données s'appuient souvent sur la Ultralytics Platform pour annoter, entraîner et déployer en toute fluidité des pipelines complexes basés sur des événements.
Link to this sectionConcepts associés#
Il est important de différencier cette technique de termes d'IA similaires :
- Action Chunking : Alors que le découpage sémantique regroupe les données par sens pour une récupération optimale, l'action chunking regroupe des séquences de mouvements physiques (comme la trajectoire d'un bras robotique) en actions exécutables uniques en robotique.
- Semantic Search : Le découpage sémantique est la phase de préparation des données essentielle qui rend possible une récupération d'informations précise, tandis que la recherche sémantique est le processus de requête réel qui récupère ces segments préparés en fonction de l'intention de l'utilisateur.






