Semantic Chunking
セマンティックチャンキングがどのようにデータコンテキストを保持し、AIとRAGの精度を向上させるかを学びましょう。Ultralytics YOLO26を使用して視覚的チャンクを抽出する方法をご覧ください。
セマンティック・チャンキングは、機械学習 (ML)や人工知能 (AI)において、大きなデータセットを小さく意味のあるセグメントに分割するために使用される高度なデータ前処理技術です。AIの文脈における「チャンキングとは何か」という疑問に対して答えるなら、それはドキュメント、動画、音声などの非構造化データのような長いシーケンスを、扱いやすい断片やセグメントに分解するプロセスです。一般的なチャンキングの定義では、固定の文字数や時間間隔でデータを分割することがよくあります。しかし、「意味によるチャンキング」、つまりセマンティック・チャンキングは、文脈を分析して関連する情報をグループ化することで、さらに一歩進んだ処理を行います。これにより、中核となるメッセージが損なわれず、恣意的な分割方法で頻発する文脈の欠落を防ぐことができます。
Link to this sectionセマンティック・チャンキングはどのように機能するか?#
セマンティック・チャンキングの実行方法を理解するには、現代の生成AIパイプラインにおける役割を検討するのが役立ちます。では、RAGにおけるセマンティック・チャンキングとは何でしょうか?ベクトルデータベース用のデータを準備する際、埋め込みモデルが隣接する文や視覚要素を分析し、それらの関係性を計算します。コサイン類似度のような統計的指標を使用して、システムはトピックが変化するポイント(多くの場合、ブレークポイントと呼ばれます)を特定し、そこでデータを分割します。これにより、クエリ中に大規模言語モデル (LLM)によって取得されるデータチャンクが、完全かつ一貫した思考を含むようになり、生成された回答の精度が劇的に向上します。RAPTORおよび適応型グラフクラスタリングに関する最近の研究では、このコンテキストアウェアな戦略が固定サイズの分割よりも優れていることが強調されています。
Link to this sectionコンピュータビジョンにおけるセマンティック・チャンキング#
従来は自然言語処理 (NLP)に関連付けられてきましたが、セマンティック・チャンキングはコンピュータビジョンやマルチモーダルAIにおいても非常に重要です。例えばドキュメント解析において、視覚的なセマンティック・チャンクは、厳密なページの境界で区切るのではなく、チャートとその説明文をまとめて保持します。高度なクラウドプロバイダーやAPIツールは、これらの複雑なデータタイプを管理するための専門的なセマンティック・チャンキング設定を提供しています。
開発者はUltralytics YOLO26モデルを活用して、これらの視覚的チャンクの抽出を自動化できます。画像や動画内のオブジェクトを検出することで、シーンの中核となるコンテンツを表す意味のあるローカライズされたセグメントを作成できます。
from ultralytics import YOLO
# Load an Ultralytics YOLO26 model to extract visual semantics
model = YOLO("yolo26n.pt")
# Run inference to detect objects within a visual scene
results = model("scene.jpg")
# Group detected object classes to form a semantic visual chunk
visual_chunk = [model.names[int(cls)] for cls in results[0].boxes.cls]
print(f"Semantic visual chunk elements: {visual_chunk}")Link to this section実社会での応用#
セマンティック・チャンキングは、さまざまなAIワークフローにおける重要な課題を解決します。以下に2つの具体的な例を挙げます。
- ドキュメントAIのためのマルチモーダルRAG: 財務報告書のような複雑なPDFを解析する場合、視覚的チャンキングを行うことで、テーブルを囲むバウンディングボックスが対応するテキストの要約と確実にグループ化されます。これにより、AIアシスタントは数値の文脈を失うことなく、非常に具体的な質問に正確に回答できるようになります。
- 自動動画要約: セキュリティや監視において、連続する動画ストリームは、立ち入り禁止区域に人が侵入したといった検出されたイベントに基づいてセマンティックにチャンク化されます。オブジェクトトラッキングを使用することで、システムは関連するフレームをグループ化し、ランダムな10秒間の切り抜きではなく、実用的なビデオクリップとして返します。これらの膨大なデータセットを管理するチームは、Ultralytics Platformを利用して、このような複雑なイベント駆動型パイプラインをシームレスにアノテーション、学習、展開しています。
Link to this section関連概念#
この技術を類似のAI用語と区別することが重要です。
- アクション・チャンキング: セマンティック・チャンキングが最適な検索のためにデータを意味でグループ化するのに対し、アクション・チャンキングは物理的な動き(ロボットアームの軌道など)のシーケンスを、ロボティクスにおける単一の実行可能なアクションにグループ化します。
- セマンティック検索: セマンティック・チャンキングは正確な情報検索を可能にする重要なデータ準備フェーズですが、セマンティック検索はユーザーの意図に基づいて準備されたチャンクを取得する実際のクエリプロセスです。






