Bounding Box
バウンディングボックスがコンピュータビジョンにおいて物体位置をどのように定義するかを学びます。座標フォーマット、現実世界での応用、およびUltralytics YOLO26の使用方法を探求しましょう。
Bounding box(バウンディングボックス)とは、画像やビデオフレーム内の特定のオブジェクトを囲む、座標セットによって定義された長方形の領域です。computer vision (CV)の分野において、これらのボックスはartificial intelligence (AI)システムに個別のアイテムの位置を特定し認識させる方法を教えるための基本的なアノテーションとして機能します。単に画像全体を「車が含まれている」と分類するのではなく、バウンディングボックスを使用することで、モデルは車の正確な位置と空間的な広がりを特定し、背景や他のエンティティから分離することができます。このローカリゼーション機能は、object detectionタスクにおいて不可欠であり、複数のオブジェクトを同時に高い精度で識別することが目的となります。
Link to this sectionコアコンセプトと座標#
視覚データを効果的に処理するために、machine learning (ML)モデルはバウンディングボックスを数学的に表現するための特定の座標系を利用します。選択されたフォーマットは、多くの場合、model trainingのためにデータがどのように準備されるか、またモデルがどのように予測を出力するかを決定します。
- XYXY Coordinates: このフォーマットは、左上隅と右下隅の絶対ピクセル値を使用してボックスを定義します。これは、OpenCVやMatplotlibのような可視化ツールを使用して、画像上に直接長方形を描画する際に直感的です。
- XYWH Format: COCOのようなデータセットで一般的なこの手法は、オブジェクトの中心点、その後にボックスの幅と高さを指定します。この表現は、学習プロセス中にloss functionsを計算するために重要です。
- Normalized Coordinates: さまざまな解像度の画像全体でscalabilityを確保するために、座標は0から1の範囲にスケーリングされることがよくあります。これにより、モデルは異なる寸法の入力を分析する際、より適切に一般化できるようになります。
Link to this section実社会での応用#
バウンディングボックスは、多様な業界における数多くのAIソリューションの構成要素です。正確なローカリゼーションを可能にすることで、システムが物理世界とインテリジェントに対話できるようになります。
- Autonomous Vehicles: 自動運転車はバウンディングボックスを使用して、歩行者、他の車両、交通標識、障害物をリアルタイムで検出および追跡します。この空間認識は、ナビゲーションや安全システムが瞬時の判断を下すために不可欠です。
- Retail Analytics: スマートストアでは、バウンディングボックスは棚の在庫監視や、顧客の製品に対するやり取りを追跡するのに役立ちます。このデータにより、手動で数えることなく、在庫補充の自動化や買い物客の行動に関する洞察を得ることが可能です。
Link to this sectionバウンディングボックスの実践#
YOLO26のような現代的なアーキテクチャを使用する場合、モデルはクラスラベルやconfidence scoreとともにバウンディングボックスを予測します。以下の例では、画像に対して推論を実行し、ultralyticsパッケージを使用してバウンディングボックスの座標にアクセスする方法を示します。
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0]) # Output: tensor([x1, y1, x2, y2, ...])Link to this section関連用語と差別化#
バウンディングボックスは一般的な検出において標準的ですが、より詳細なタスクで使用される他のアノテーションタイプとは異なります。
- Instance Segmentation: 長方形のバウンディングボックスとは異なり、セグメンテーションはオブジェクトの正確な輪郭をトレースするピクセル単位のマスクを作成します。これは、一般的な位置よりも正確な形状が重要な場合に役立ちます。
- Oriented Bounding Box (OBB): 標準的なバウンディングボックスは軸に沿った(直立した長方形)ものです。OBBは、衛星画像内の船舶やコンベアベルト上のパッケージなど、角度がついたオブジェクトにフィットするように回転できるため、より厳密にフィットし、背景ノイズを低減します。
- Keypoints: オブジェクトを囲む代わりに、キーポイントはpose estimationのための人体関節のような特定のランドマークを識別します。
Link to this sectionアノテーションと管理のためのツール#
高品質なバウンディングボックスのアノテーションを作成することは、MLパイプラインにおける重要なステップです。Ultralytics Platformは、data annotationおよびデータセット管理のためのツールを提供することで、このプロセスを簡素化します。適切なアノテーションにより、モデルはオブジェクトを正確に区別できるようになり、overfittingや背景との混同といったエラーを最小限に抑えることができます。Non-Maximum Suppression (NMS)のような高度な技術は、推論時に重複するボックスを除去して予測を洗練させ、各オブジェクトに対して最も正確な検出のみが残るようにするために使用されます。






