YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

バウンディングボックス

バウンディングボックスがコンピュータビジョンでオブジェクトの位置をどのように定義するかを学びましょう。座標形式、実際のアプリケーション、およびUltralytics YOLO26の使用方法を探りましょう。

バウンディングボックスは、画像またはビデオフレーム内の特定のオブジェクトを囲む、座標のセットによって定義される矩形領域です。コンピュータービジョン (CV)の分野では、これらのボックスは、人工知能 (AI)システムに個別のアイテムを特定し認識する方法を教えるための基本的なアノテーションとして機能します。画像全体を単に「車が含まれている」とclassifyするのではなく、バウンディングボックスはモデルが車の正確な位置と空間的範囲を特定し、背景や他のエンティティから分離することを可能にします。このローカライゼーション機能は、複数のオブジェクトを同時に高精度で識別することを目標とするオブジェクトdetectionタスクに不可欠です。

主要概念と座標

視覚データを効果的に処理するため、機械学習(ML)モデルは、バウンディングボックスを数学的に表現するために特定の座標系に依存します。選択されたフォーマットは、モデルトレーニングのためにデータがどのように準備され、モデルがどのように予測を出力するかをしばしば決定します。

  • XYXY Coordinates: このフォーマットは、左上隅と右下隅の絶対ピクセル値を使用してボックスを定義します。OpenCVMatplotlibのような可視化ツールで画像に直接長方形を描画する際に直感的です。
  • XYWH Format: COCOのようなデータセットで一般的なこの手法は、オブジェクトの中心点に続いてボックスの幅と高さを指定します。この表現は、学習プロセス中に損失関数を計算するために不可欠です。
  • 正規化座標: 異なる解像度の画像間でのスケーラビリティを確保するために、座標はしばしば0から1の範囲にスケーリングされます。これにより、モデルはさまざまな次元の入力を分析する際に、より適切に汎化できるようになります。

実際のアプリケーション

バウンディングボックスは、多様な産業における無数のAIソリューションの構成要素です。正確なローカライゼーションを可能にすることで、システムが物理世界とインテリジェントに相互作用することを可能にします。

  • Autonomous Vehicles: 自動運転車はバウンディングボックスを使用して、歩行者、他の車両、交通標識、および障害物をリアルタイムでdetectしtrackします。この空間認識は、ナビゲーションと安全システムが一瞬の意思決定を行う上で不可欠です。
  • Retail Analytics: スマートストアでは、バウンディングボックスが棚の在庫を監視し、製品との顧客のインタラクションをtrackするのに役立ちます。このデータは、手動でのカウントなしに在庫補充を自動化し、買い物客の行動に関する洞察を提供できます。

実際のバウンディングボックス

次のような最新のアーキテクチャを使用する場合 YOLO26、モデルはクラスラベルと合わせてバウンディングボックスを予測します。 信頼度。以下の例は、画像に対して推論を実行し、バウンディングボックスの座標にアクセスする方法を示しています。 ultralytics パッケージで提供される。

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0])  # Output: tensor([x1, y1, x2, y2, ...])

関連用語と区別

バウンディングボックスは一般的なdetectの標準ですが、より粒度の高いタスクで使用される他のアノテーションタイプとは異なります。

  • インスタンスセグメンテーション: 矩形バウンディングボックスとは異なり、セグメンテーションはオブジェクトの正確な輪郭をトレースするピクセル単位のマスクを作成します。これは、大まかな位置よりも正確な形状が重要な場合に役立ちます。
  • 指向性バウンディングボックス (OBB): 標準的なバウンディングボックスは軸に沿ったもの(直立した長方形)です。OBBは、衛星画像内の船舶やコンベアベルト上の荷物など、傾斜したオブジェクトに合わせて回転でき、より密接にフィットし、背景ノイズを低減します。
  • キーポイント: オブジェクトを囲むのではなく、姿勢推定のために人体の関節など、特定のランドマークを識別します。

アノテーションと管理のためのツール

高品質なバウンディングボックスアノテーションの作成は、MLパイプラインにおける重要なステップです。Ultralytics Platformは、データアノテーションおよびデータセット管理のためのツールを提供することで、このプロセスを簡素化します。適切なアノテーションは、モデルがオブジェクトを正確に区別することを保証し、過学習や背景の混同などのエラーを最小限に抑えます。Non-Maximum Suppression (NMS)のような高度な手法は、推論中に重複するボックスを除去することでこれらの予測を洗練し、各オブジェクトに対して最も正確なdetectのみが残るようにするために使用されます。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。