領域提案と分類に焦点を当て、2段階オブジェクト検出器のメカニズムを探りましょう。Ultralytics YOLO26のような最新モデルが現在主導的な地位にある理由を理解できます。
2段階物体検出器は、コンピュータビジョンにおいて画像内のアイテムを識別し、位置を特定するために使用される、洗練された 深層学習(DL)アーキテクチャの一種です。シングルパスでdetectionを実行する1段階検出器とは異なり、これらのモデルはタスクを領域提案と物体分類の2つの異なるフェーズに分割します。この分岐アプローチは、高い位置特定精度を優先するために開拓され、これらの検出器を 人工知能(AI)の進化において歴史的に重要なものとしました。「どこに」と「何を」を分離することで、2段階検出器は、特に小型または遮蔽された物体に対して優れた精度を達成することがよくありますが、これは通常、計算リソースの増加と 推論レイテンシの低下という代償を伴います。
ツーステージ検出器のアーキテクチャは、人間がシーンを注意深く精査する方法を模倣したシーケンシャルなワークフローに依存しています。
このアーキテクチャの代表的な例としては、R-CNNファミリー、特にFaster R-CNNとMask R-CNNが挙げられ、これらは数年間にわたり学術的なベンチマークの標準を確立しました。
2段階モデルを、Single Shot MultiBox Detector (SSD) やUltralytics YOLOシリーズのような1段階object detectorsと区別することは有用です。2段階モデルが領域を個別に処理することでaccuracyを優先するのに対し、1段階モデルはdetectionを単一の回帰問題として捉え、画像ピクセルをバウンディングボックスの座標とクラス確率に直接マッピングします。
歴史的に、これによりトレードオフが生じました。2段階モデルはより正確でしたが遅く、1段階モデルは高速でしたが精度が劣りました。しかし、現代の進歩により、この境界線は曖昧になっています。YOLO26のような最先端モデルは、2段階検出器の精度に匹敵しながら、リアルタイム推論に必要な速度を維持するエンドツーエンドアーキテクチャを利用しています。
2段階検出器は、精度と再現率を重視するため、生の処理速度よりも安全性と詳細が重要視されるシナリオでしばしば好まれます。
2段階 detect モデルは高精度ビジョンの基礎を確立しましたが、現代の開発者は、同等のパフォーマンスをよりはるかに簡単なデプロイメントワークフローで提供する高度な1段階モデルをしばしば利用します。 Ultralytics Platformは、これらのモデルのトレーニングとデプロイメントを簡素化し、データセットと計算リソースを効率的に管理します。
以下のpythonの例は、最新のオブジェクトdetectワークフローを使用して推論をロードおよび実行する方法を示しています。
ultralyticsは、従来の2段階アプローチと同様の高精度な結果を、より高い効率で達成します。
from ultralytics import YOLO
# Load the YOLO26 model, a modern high-accuracy detector
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Process results (bounding boxes, classes, and confidence scores)
for result in results:
result.show() # Display the detection outcomes
print(result.boxes.conf) # Print confidence scores

未来の機械学習で、新たな一歩を踏み出しましょう。