バウンディングボックスが、物体検出、AI、機械学習システムをどのように実現するかを学びます。コンピュータビジョンアプリケーションにおけるバウンディングボックスの役割を探求しましょう。
バウンディングボックスとは、画像や動画フレーム内の特定オブジェクトを囲む座標セットで定義される矩形領域である。コンピュータビジョン(CV)分野では、これらのボックスが人工知能(AI)システムに個別のアイテムの位置特定と認識方法を教えるための基本注釈として機能する。 単に画像全体を「自動車を含む」と分類するのではなく、 バウンディングボックスによりモデルは自動車の正確な位置と空間的範囲を特定し、 背景や他の物体から分離できます。この位置特定能力は、 複数の物体を同時に高精度で識別することを目的とする 物体検出タスクにおいて不可欠です。
視覚データを効果的に処理するため、 機械学習(ML)モデルは特定の座標系に依存し、 バウンディングボックスを数学的に表現する。 選択された形式は、モデル訓練のためのデータ準備方法や、 モデルが予測を出力する方法を決定することが多い。
バウンディングボックスは、多様な産業における無数のAIソリューションの基盤となる要素です。 正確な位置特定を可能にすることで、システムが物理世界と知的に相互作用することを実現します。
現代的なアーキテクチャを使用する場合、 YOLO26モデルは
境界ボックスとともにクラスラベルと
信頼度以下の例は、画像に対して推論を実行し、バウンディングボックス座標にアクセスする方法を示しています。 ultralytics パッケージで提供される。
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0]) # Output: tensor([x1, y1, x2, y2, ...])
バウンディングボックスは一般的な検出では標準的ですが、より詳細なタスクで使用される他のアノテーションタイプとは異なります。
高品質なバウンディングボックス注釈の作成は、機械学習パイプラインにおける重要なステップです。 Ultralytics 、データ注釈とデータセット管理のためのツールを提供することで、このプロセスを簡素化します。適切な注釈により、モデルは物体を正確に識別することを学習し、過学習や背景の混同などのエラーを最小限に抑えます。 推論時には ノン・マキシマム・サプレッション(NMS)などの 高度な技術を用いて 予測を精緻化します。これにより重複するバウンディングボックスを除去し、 各オブジェクトに対して最も正確な検出結果のみを残します。