YOLOEを使用すると、簡単なプロンプトや写真を使用して物体を検出する方法をご覧ください。モデルの再トレーニングや微調整なしで、よりスマートで高速なコンピュータビジョンが可能になります。
YOLOEを使用すると、簡単なプロンプトや写真を使用して物体を検出する方法をご覧ください。モデルの再トレーニングや微調整なしで、よりスマートで高速なコンピュータビジョンが可能になります。
物体検出は、画像や動画内の物体を識別し、位置を特定することを目的とした、コンピュータビジョンの重要なタスクです。これは、機械が視覚データを理解し解釈することを可能にする人工知能(AI)の一分野であるコンピュータビジョンの重要な要素です。たとえば、物体検出は、写真の中の車を識別したり、ビデオフィードの中の人物を見つけたりするのに役立ちます。
物体検出のようなコンピュータビジョンタスクをサポートする最も有名なモデルシリーズの1つは、YOLO(You Only Look Once)モデルシリーズです。速度と精度を重視して設計されたYOLOモデルは、時間の経過とともに継続的に改善されています。例えば、最新バージョンの一つであるUltralytics YOLO11は、現実の状況で優れた性能を発揮し、より複雑な環境でも正確な結果を提供します。
この進歩をさらに推し進めるため、YOLOEと呼ばれる新しいモデルは、YOLOモデルの能力を拡張することを目指しています。新しいオブジェクトを認識するために再トレーニングを必要とする従来のモデルとは異なり、YOLOEは簡単なテキストまたは画像のプロンプトに従って、これまで見たことのないオブジェクトを検出できるため、変化する環境への適応性が大幅に向上します。
この記事では、YOLOEをユニークたらしめているもの、以前のYOLOモデルとの比較、そして今日からYOLOEを使い始める方法について詳しく見ていきます。それでは始めましょう!
YOLOEは、物体検出をさらに一歩進めたコンピュータビジョンモデルです。2025年3月に清華大学の研究者によって発表されました。YOLOEが従来のモデルと異なるのは、オープンボキャブラリ検出を使用していることです。
ほとんどのモデルは固定されたオブジェクトのリストを認識するようにトレーニングされていますが、YOLOEでは、短い説明またはサンプル画像を使用して、何を探すかを指定できます。例えば、「緑のバックパック」を探している場合、その説明を入力するか、モデルに写真を見せると、YOLOEはシーン内でそれを見つけます。
さらに、YOLOEはプロンプトがなくても、日常的なオブジェクトを多数検出できます。以前に見たことのないオブジェクトを認識するこの能力は、ゼロショット検出と呼ばれます。これは、タスクや関心のあるオブジェクトが予期せず変化する可能性のある動的な環境で特に役立ちます。

YOLOEは、実際のアプリケーションでのパフォーマンスを向上させるように設計された幅広い機能をサポートしています。構造化された入力と非構造化された入力の両方を処理できるYOLOEは、オブジェクト検出とセグメンテーションに新たな可能性を開きます。
このモデルがもたらす主な機能をご紹介します。
YOLOEについて理解を深めたところで、YOLOファミリーにある類似モデルを見ていきましょう。
コンピュータビジョンが進歩するにつれて、YOLOモデルも進歩してきました。たとえば、Ultralytics YOLOv8は、セグメンテーションや分類などの新しいタスクのサポートをもたらしましたが、Ultralytics YOLO11のような後のバージョンは、より広範なタスクの精度とパフォーマンスの向上に焦点を当てています。
また、2024年1月にはYOLO-Worldがリリースされ、テキストプロンプトを使用する機能が導入され、ユーザーは検出したいオブジェクトを記述できるようになりました。YOLO-Worldはゼロショット検出に適したオプションでしたが、インスタンスセグメンテーションやビジュアルプロンプトのサポートなどの機能がありませんでした。
YOLOEは、これらの機能を追加することでYOLO-Worldを基盤として構築し、柔軟性とパフォーマンスを向上させ、現実世界のコンピュータビジョンアプリケーション向けによりインパクトのあるツールを提供します。

特定のオブジェクトを検出したい場合でも、画像内のすべてを探索したい場合でも、YOLOEの導入は簡単です。このモデルはUltralytics Pythonパッケージでサポートされており、プロジェクトへの統合が容易です。次に、その使用方法を説明します。
最初のステップは、‘pip’のようなパッケージマネージャーを使用して、Ultralytics Pythonパッケージをインストールすることです。これは、ターミナルまたはコマンドプロンプトでコマンド“pip install ultralytics”を実行することで実行できます。
パッケージがインストールされると、モデルのロード、予測の実行、さまざまな検出モードの実験に必要なものがすべて揃います。インストール中に問題が発生した場合は、公式のUltralyticsドキュメントに役立つトラブルシューティングセクションがあります。
YOLOEを使用して予測を実行する方法はいくつかあります。予測の実行とは、トレーニングされたモデルを使用して、画像またはビデオ内のオブジェクトを識別および特定することを意味します。これらの異なる方法を使用すると、特定のニーズに基づいてモデルとの対話方法をカスタマイズできます。
これらの方法について、一つずつ詳しく説明します。
YOLOEは、短いテキスト記述に基づいてオブジェクトを検出できます。たとえば、移動中の馬を探している場合は、「馬が歩いている」のようなプロンプトを使用できます。
まず、事前学習済みの YOLOE モデルをロードし、モデルに探させたいものを記述したプロンプトを設定します。以下のコードスニペットを参照してください。
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))モデルとプロンプトの設定が完了したら、画像または動画に対してモデルを実行できます。コード内のファイルパスを、画像または動画ファイルへのパスに置き換えてください。
results = model.predict("path/to/your/image.jpg")
results[0].show()これにより、プロンプトに基づいて検出されたオブジェクトが明確にマークされた画像が表示されます。「赤いスーツケース」、「自転車」、「シマウマ」など、探しているものに応じて、プロンプトを変更してさまざまなオブジェクトを検索できます。

同様に、Ultralytics Pythonパッケージを使用して、画像でYOLOEをプロンプトできます。ビジュアルプロンプトモードでは、モデルは画像を使用して、別のシーンで類似したアイテムを見つけます。これは、説明が難しいオブジェクトや、明確なラベルがないオブジェクトに特に役立ちます。
これに関するコードをより詳細に調べるには、Ultralyticsドキュメントを確認してください。
場合によっては、何を検索すればよいか正確にわからなかったり、特定のオブジェクトを探していない場合があります。そのような場合に、プロンプトフリーモードが役立ちます。
このオプションを使用すると、説明を入力したり、サンプル画像を提供したりする必要はありません。YOLOE は画像を単独で分析し、人、動物、家具、日用品など、認識できるものをすべて検出します。
モデルに特定の指示を与えなくても、シーンを探索するのに役立つ方法です。混雑した部屋をスキャンしたり、アクティビティの多い映像を確認したりする場合でも、プロンプトフリーモードを使用すると、画像に何が存在するかをすばやく確認できます。
以下のコードを使用すると、プロンプトなしモードでYOLOEを実行できます。まず、モデルをロードし、次に画像を処理して、画像内のオブジェクトを自動的に検出します。最後に、結果が表示され、検出されたオブジェクトが強調表示されます。
ファイルパスは、実際の画像のパスに置き換えてください。
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()以下の画像は、YOLOEがプロンプトフリーモードで検出できるものの例です。

YOLOEは、テキストと画像のプロンプトの両方に応答できるため、リアルタイムアプリケーションにとって信頼性の高いツールです。その柔軟性は、タイミングと精度が不可欠なペースの速い環境で特に役立ちます。
YOLOEがどのように使用できるか、実際の例をいくつか見てみましょう。
混雑した空港では、特に紛失した荷物がある場合、特定の荷物を見つけるのが困難です。YOLOEは、ライブビデオをスキャンし、「赤いバッグ」のような簡単なプロンプトに基づいてアイテムを迅速に識別することで、このプロセスを効率化できます。
バッグが見つからない場合や置き忘れた場合、スタッフはプロンプトを簡単に変更して、「黒いスーツケース」など、別のアイテムを検索できます。この即座に適応できる機能により、空港スタッフは長時間の映像を確認したり、モデルを再トレーニングしたりすることなく、適切な荷物を迅速に見つけることができ、手荷物処理と紛失手荷物問題の解決がはるかに迅速かつ効率的になります。
混雑した市場やカフェなどの公共スペースの監視映像には、時間帯によって変化する人、物、活動が混在していることがよくあります。YOLOEは、プロンプトフリーモードを使用してこの映像をリアルタイムで分析し、特定の指示がなくても、バッグ、テーブル、自転車などのアイテムを自動的に検出できます。

これは、セキュリティチームが放置されたアイテムを見つけたり、群衆の動きを追跡したりするのに特に役立ちます。YOLOEは複数のオブジェクトを一度に検出できるため、イベント中や混雑時における公共スペースの管理が容易になり、チームは常に情報を把握し、迅速に対応できます。
以下に、コンピュータビジョンアプリケーションにYOLOEを使用する主な利点をいくつか示します。
ただし、YOLOEを使用する際には、留意すべき点がいくつかあります。考慮すべき要素をいくつかご紹介します。
YOLOEは、テキストまたは画像のプロンプトで検出をガイドできるようにすることで、コンピュータビジョンに柔軟性をもたらします。シーンが急速に変化し、再トレーニングが不可能な現実世界の状況でうまく機能します。
手荷物処理から公共空間の監視まで、YOLOEは新しいタスクに容易に適応します。AIがより身近になるにつれて、YOLOEのようなモデルは、より多くの産業が視覚技術を実用的かつ効率的な方法で使用するのに役立っています。
AIのイノベーションについてさらに学ぶには、コミュニティにご参加いただき、GitHubリポジトリをご覧ください。ソリューションページでは、小売業におけるAIやヘルスケアにおけるコンピュータビジョンなど、最新の進歩を紹介しています。当社のライセンスオプションをご覧になり、コンピュータビジョンを今すぐ始めましょう。