Yolo 深圳
深セン
今すぐ参加
用語集

物体検出アーキテクチャ

物体検出アーキテクチャのパワーをご覧ください。画像理解のためのAIバックボーンです。種類、ツール、そして今日の実際の応用事例を学びましょう。

物体検出アーキテクチャは、次のような深層学習モデルの構造的枠組みとして機能する。 ディープ・ラーニング・モデルの構造的枠組みとして機能する。 視覚データ内の明確なアイテムを識別するために設計されたディープラーニングモデルの構造的な枠組みである。標準的な 画像全体に単一のラベルを割り当てる 画像全体に単一のラベルを割り当てる標準的な画像分類とは異なり、これらのアーキテクチャは、マシンが複数のエンティティを認識し、それらの正確な位置をバウンディングボックスで定義し、特定のラベルを割り当てることを可能にする。 バウンディングボックスで正確な位置を定義し、それぞれに特定のクラスラベルを割り当てる。 クラスラベルを割り当てる。アーキテクチャは、ニューラルネットワークがピクセルデータをどのように処理し、意味のある洞察に変換するかを効果的に決定する。 モデルの精度に直接影響する、 速度、計算効率に直接影響する。

検出アーキテクチャの主要コンポーネント

最新の検知システムのほとんどは、3つの主要な段階からなるモジュール設計に依存している。これらの構成要素を理解することは を理解することは、研究者やエンジニアが以下のようなタスクに適したツールを選択するのに役立つ。 医療画像解析から産業 オートメーションまで、幅広いタスクに適したツールを選択するのに役立つ。

  • バックボーン:これはネットワークの初期部分で、特徴抽出を担当する。バックボーンは 通常 畳み込みニューラルネットワーク(CNN) で、生画像を処理してエッジ、テクスチャ、形状などのパターンを識別する。一般的なバックボーンには以下が含まれる。 残差ネットワーク(ResNet)やクロス YOLO モデルで使用されるCSP(Cross Stage Partial)ネットワークなどがある。特徴抽出をより深く理解するには、以下を参照してください。 スタンフォード大学のCS231nノートを参照してください。
  • 首:背骨と頭の間に位置し、異なるステージからの特徴マップを集約する。 を集約する。これにより、様々なスケール(小、中、大)の物体をdetect することができる。一般的な 一般的な手法は 特徴ピラミッドネットワーク(FPN)である。 画像のマルチスケール表現を作成する。
  • 検出ヘッド:最後のコンポーネントは検出ヘッドである。 検出ヘッドである。 予測を生成します。各クラスのバウンディング・ボックスと信頼度スコアの座標を出力する。 出力します。

アーキテクチャの種類

アーキテクチャは一般に、その処理方法によって分類される。 推論速度と検出精度のトレードオフを表すことが多い。

1段検出器と2段検出器の比較

  • 二段階物体検出器 R-CNNファミリーのようなこれらのモデルは、2つの異なるステップで動作する。 を生成し、次にそれらの領域を分類する。歴史的に高精度であることが知られているが は計算量が多い。オリジナルの Faster R-CNNの論文を読んで、このアプローチのルーツを理解しよう。
  • 一段階の物体検出器 のようなアーキテクチャ Ultralytics YOLOシリーズのようなアーキテクチャは この構造により、リアルタイムでの推論が可能になります。 この構造はリアルタイム推論を可能にします、 ビデオストリームやエッジデバイスに最適です。

アンカーベースとアンカーフリー

古いアーキテクチャは、しばしば次のようなものに頼っていた。 アンカーボックス-モデルがオブジェクトに合うように調整しようとする、あらかじめ定義された形状-に依存していた。 である。しかし、最近の のようなアンカーを使わない YOLO11のような最新のアンカーなし検出器では、この手動によるハイパーパラメータの調整が不要になる。その結果、学習パイプラインが簡素化され 般化が向上する。今後、YOLO26のような研究開発プロジェクトは、このようなアンカーフリーの概念をさらに洗練させ、より効率的な YOLO26のような今後の研究開発プロジェクトでは、このようなアンカーフリーのコンセプトをさらに洗練させ、ネイティブにエンド・ツー・エンドのアーキテクチャをターゲットとすることで、さらなる効率化を目指している。

実際のアプリケーション

物体検出アーキテクチャの多用途性は、さまざまな分野での技術革新の原動力となっている:

  • 自律走行車 自動運転車は高速アーキテクチャーを使い、歩行者、交通標識、他の車両をリアルタイムでdetect する。 リアルタイムで検知する。ウェイモのような企業は、複雑な都市環境を安全にナビゲートするために、こうした高度なビジョン・システムを活用している。 複雑な都市環境を安全にナビゲートする。
  • リテール・アナリティクス小売部門では、以下のようなアーキテクチャが導入されている。 スマート・スーパーマーケット に導入されている。棚上の商品の動きを追跡することで、店舗は補充プロセスを自動化できる。 再入荷プロセスを自動化できる。
  • 精密農業:農家はこれらのモデルを農業に活用する。 農業用AIを活用して、作物の病気を特定したり 雑草の自動検出を行い、化学薬品の使用量を大幅に削減する。

オブジェクト検出の実装

YOLO11 ようなモダンなアーキテクチャの使用は、高レベルのPython APIを使えば簡単だ。次の例 は、事前に訓練されたモデルをロードし、画像に対して推論を実行する方法を示しています。

from ultralytics import YOLO

# Load the YOLO11n model (nano version for speed)
model = YOLO("yolo11n.pt")

# Perform object detection on a remote image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results (bounding boxes and labels)
results[0].show()

さまざまなアーキテクチャーの選択がパフォーマンスにどのような影響を与えるかを比較することに興味がある方は、YOLO11のベンチマークをご覧ください。 YOLO11 他のシステムとのベンチマークを見ることができます。 などのベンチマークを見ることができます。 RT-DETR.さらに さらに、Intersection over Union (IoU)のような指標を理解することは のようなメトリクスを理解することは、アーキテクチャがそのタスクをどれだけうまく実行できるかを評価する上で極めて重要である。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加