YOLOような最先端のモデルを使って、画像やビデオ内のオブジェクトを識別し、位置を特定します。実世界での応用例をご覧ください!
物体検出は、コンピュータビジョン(CV)の中でも極めて重要な機能である。 コンピュータビジョン ソフトウェアシステムは、画像が何を表しているかを認識するだけでなく、画像内のアイテムの特定のインスタンスを見つけることができます。一方 標準的な分類は、視覚入力全体に単一のラベルを割り当てますが、オブジェクト検出は、各アイテムの周囲の境界ボックスを予測することにより、より詳細な理解を提供します。 な理解を提供する。 特定のクラス・ラベルと信頼スコア 信頼度スコア。この技術は 高度な 人工知能 機械が物理世界の複雑さを認識し、解釈し、相互作用することを可能にする。工場の自動品質管理から高度な監視まで 工場の自動品質管理から高度な監視まで、非構造化ピクセルデータを実用的な洞察に変換します。
最新の検出器は主に ディープラーニング(DL)アーキテクチャ、特に 畳み込みニューラルネットワーク(CNN)を用いて、特徴の空間階層を学習する。典型的なアーキテクチャは ResNetやCSPNetなどのバックボーンから構成される。 入力画像から重要な視覚的特徴を抽出する。これらの特徴は次に 検出ヘッドによって処理される。 バウンディングボックスの座標とクラスメンバーシップの確率を出力する。
高性能を達成するために、モデルはCOCOデータセットのような大規模なラベル付きコレクションで学習される。 COCO データセットはベンチマークの基準となる。推論中、 アルゴリズムは同じオブジェクトに対して複数の重複するボックスを生成することが多い。以下のようなテクニックがある。 非最大抑制(NMS) のような技術が適用され、これらの冗長性をフィルタリングし、最も信頼度が高く、最適なボックスのみを保持する。 IoU持つボックスのみを保持する。 を保持する。
モデルは一般的に2つのタイプに分類される:
物体検出を類似のコンピュータ・ビジョン・タスクと区別することは極めて重要である。 コンピュータビジョンタスクと区別することが重要である。
物体検出は、様々な業界において多くの革新的な技術を支えるエンジンである。
次のコード・スニペットは、事前にトレーニングされたYOLO11 モデルを使用して、オブジェクト検出を実行する方法を示しています。
ultralytics パッケージを使用する。このシンプルなワークフローは、モデルをロードし、画像上で推論を実行し、バスや人のようなオブジェクトを識別する。
を実行する。
from ultralytics import YOLO
# Load a pretrained YOLO11 model (n-scale for speed)
model = YOLO("yolo11n.pt")
# Run inference on a remote image source
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes and labels
results[0].show()