YOLOEとは何か?コンピュータビジョンモデルをさらに進化させる
YOLOEを使用して、シンプルなプロンプトや写真からオブジェクトを見つける方法を学びます。モデルの再学習やファインチューニングを行うことなく、よりスマートで高速なコンピュータビジョンを実現します。

物体検出は、画像や動画内の物体を識別・特定することを目的とした、主要なコンピュータビジョンタスクです。これは、機械が視覚データを理解・解釈することを可能にする人工知能(AI)の分野であるコンピュータビジョンにおける極めて重要な要素です。例えば、物体検出を活用すれば、写真内の車を特定したり、ビデオフィード内の人物を見つけたりすることができます。
物体検出などのコンピュータビジョンタスクをサポートする最も有名なモデルシリーズの一つが、YOLO (You Only Look Once) モデルシリーズです。速度と精度を重視して設計されたYOLOモデルは、時間とともに絶えず改善されてきました。例えば、最新バージョンの一つであるUltralytics YOLO11は、実世界の状況下で優れた性能を発揮し、複雑な環境でも正確な結果を提供します。
この進歩をさらに推進するために登場したのが、YOLOモデルの能力を拡張することを目的としたYOLOEという新しいモデルです。新しい物体を認識するために再トレーニングが必要な従来のモデルとは異なり、YOLOEは単純なテキストや画像プロンプトに従って未知の物体を検出できるため、変化する環境への適応性が大幅に向上しています。
本記事では、YOLOEがユニークである理由、以前のYOLOモデルとの違い、そして今日からYOLOEを利用し始める方法について詳しく解説します。それでは始めましょう!
Link to this sectionYOLOEの概要#
YOLOEは、物体検出を次のレベルへと引き上げるコンピュータビジョンモデルです。2025年3月に清華大学の研究者らによって発表されました。YOLOEが従来のモデルと一線を画している点は、オープンボキャブラリー検出(open-vocabulary detection)を採用していることです。
ほとんどのモデルはあらかじめ決められたリストの物体を認識するようにトレーニングされますが、YOLOEでは短い説明文やサンプル画像を使用して、何を探すかを指定できます。例えば、「緑色のバックパック」を探したい場合、その説明を入力するか、モデルに写真を見せるだけで、YOLOEがシーン内からそのバックパックを見つけ出します。
さらに、プロンプトが全くない状態でも、YOLOEは多くの日常的な物体を独自に検出できます。このように、これまで見たことのない物体を認識できる能力はゼロショット検出と呼ばれます。これは、タスクや関心のある物体が予期せず変化する可能性がある動的な環境において特に有用です。

図 1. YOLOEの能力について。
Link to this sectionYOLOEの主な特徴#
YOLOEは、実世界のアプリケーションでの性能を強化するために設計された幅広い機能をサポートしています。構造化データと非構造化データの両方を扱えるYOLOEは、物体検出およびセグメンテーションに新たな可能性をもたらします。
このモデルが提供する主な特徴をいくつか紹介します。
- プロンプトベースの検出: YOLOEは、短いテキストプロンプトやサンプル画像に基づいて物体を検索できます。つまり、タスクが変わるたびにモデルを再トレーニングする必要はありません。探しているものを記述するか、モデルに見せるだけです。
- インスタンスセグメンテーション: YOLOEは、物体の周囲にバウンディングボックスを描画するだけでなく、インスタンスセグメンテーションを使用して物体の正確な形状を輪郭として抽出できます。これは、物体が重なっている場合や、物体の正確な境界を知る必要がある場合に特に役立ちます。
- プロンプトフリーの物体認識: YOLOEは特定の指示がなくても物体を認識できます。事前に学習した一連の説明を使用して物体を迅速に特定するため、プロセスがより速く効率的になります。
Link to this sectionYOLOEと他のYOLOモデルの比較#
YOLOEがどのようなものか理解できたところで、YOLOファミリーの類似モデルをいくつか見ていきましょう。
コンピュータビジョンが進化するにつれて、YOLOモデルも進化してきました。例えば、Ultralytics YOLOv8はセグメンテーションや分類といった新しいタスクへのサポートを追加し、後のバージョンであるUltralytics YOLO11などは、より幅広いタスクにおける精度とパフォーマンスの向上に注力してきました。
また、2024年1月にリリースされたYOLO-Worldでは、テキストプロンプトを使用して探したい物体をユーザーが説明できるようになりました。YOLO-Worldはゼロショット検出のための優れた選択肢でしたが、インスタンスセグメンテーションやビジュアルプロンプトサポートといった機能が欠けていました。
YOLOEはYOLO-Worldをベースにこれらの機能を統合し、柔軟性とパフォーマンスを向上させ、実世界のコンピュータビジョンアプリケーションにとってよりインパクトのあるツールを提供します。

図 2. YOLO-WorldとYOLOEはどちらもゼロショット検出をサポートしています。
Link to this sectionUltralytics PythonパッケージでYOLOEを使用する#
特定の物体を検出したい場合でも、画像内のすべてを探索したい場合でも、YOLOEを使い始めるのは簡単です。このモデルはUltralytics Pythonパッケージでサポートされており、プロジェクトへの統合が容易です。次に、その使用方法を順を追って説明します。
Link to this sectionUltralyticsパッケージのインストール#
最初のステップは、「pip」などのパッケージマネージャーを使用してUltralytics Pythonパッケージをインストールすることです。ターミナルまたはコマンドプロンプトで “pip install ultralytics” コマンドを実行するだけで完了します。
パッケージがインストールされれば、モデルのロード、予測の実行、およびさまざまな検出モードの実験に必要なすべての準備が整います。インストール中に問題が発生した場合は、公式のUltralyticsドキュメントにあるトラブルシューティングセクションが役立ちます。
YOLOEで予測を実行する方法はいくつかあります。予測の実行とは、トレーニング済みモデルを使用して画像や動画内の物体を特定および配置することを意味します。これらのメソッドにより、特定のニーズに基づいてモデルとの対話方法をカスタマイズできます。
各メソッドについて順に解説します。
Link to this sectionテキストまたは画像プロンプトによる特定の物体の検出#
YOLOEは短いテキスト記述に基づいて物体を検出できます。例えば、動いている馬を探している場合、「horse walking(歩いている馬)」のようなプロンプトを使用できます。
使い始めるには、まず学習済みYOLOEモデルをロードし、以下のコードスニペットのようにプロンプト(モデルに探させたいものの説明)を設定します。
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))モデルとプロンプトを設定したら、画像または動画に対してモデルを実行できます。コード内のファイルパスを、自身の画像または動画ファイルのパスに置き換えてください。
results = model.predict("path/to/your/image.jpg")
results[0].show()これにより、プロンプトに基づいて検出された物体が明確にマークされた画像が表示されます。探しているものに応じて、「red suitcase(赤いスーツケース)」、「bicycle(自転車)」、「zebra(シマウマ)」のようにプロンプトを変更して、さまざまな物体を検索できます。

図 3. テキストプロンプトを使用して特定の物体を検出するYOLOEの使用例。
同様に、Ultralytics Pythonパッケージを使用して、画像でYOLOEをプロンプトすることもできます。ビジュアルプロンプトモードでは、モデルは画像を使用して別のシーンから似たようなアイテムを見つけます。これは、説明が難しい物体や、明確なラベルがない物体に対して特に便利です。
このコードの詳細については、Ultralyticsドキュメントをご覧ください。
Link to this sectionYOLOEを使用した一般的な物体検出#
何を探せばよいのか正確に分からない場合や、特定の物体を探していない場合もあります。そのような場合に役立つのがプロンプトフリーモードです。
このオプションでは、説明を入力したり、サンプル画像を提供したりする必要はありません。YOLOEは画像を単独で分析し、人物、動物、家具、あるいは日常的な物体など、認識可能なすべてのものを検出します。
これは、モデルに具体的な指示を出さずにシーンを探索するのに便利な方法です。混雑した部屋をスキャンする場合でも、動きの多い映像を確認する場合でも、プロンプトフリーモードを使用すれば画像内に何があるかを素早く把握できます。
以下のコードを使用して、プロンプトフリーモードでYOLOEを実行できます。まずモデルをロードし、次に画像を処理して自動的に物体を検出します。最後に結果が表示され、検出された物体がハイライトされます。
ファイルパスは必ず実際の画像のパスに置き換えてください。
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()下に表示されている画像は、プロンプトフリーモードでYOLOEが検出できるものの例です。

図 4. プロンプトフリーモードでYOLOEを使用する。
Link to this sectionYOLOEのリアルタイムアプリケーション#
テキストプロンプトと画像プロンプトの両方に対応できるYOLOEの能力は、リアルタイムアプリケーションのための信頼性の高いツールとなります。その柔軟性は、タイミングと精度が不可欠なペースの速い環境で特に有用です。
YOLOEがどのように使用されるか、実世界の例をいくつか見てみましょう。
Link to this section手荷物取り扱いの改善:リアルタイムの手荷物検出#
混雑した空港では、特定の荷物を見つけるのが難しい場合があります。特に紛失物を取り扱う際は困難です。YOLOEは、ライブ映像をスキャンし、「赤いバッグ」のような単純なプロンプトに基づいてアイテムを迅速に特定することで、このプロセスを効率化できます。
バッグが見当たらない場合や置き場所が分からない場合、スタッフはプロンプトを「黒いスーツケース」のように変更して別のアイテムを検索できます。このように即座に適応できる能力は、長時間の映像を確認したりモデルを再トレーニングしたりすることなく、空港スタッフが適切な荷物を素早く見つける助けとなり、手荷物取り扱いや紛失物問題の解決をより速く効率的にします。
Link to this sectionYOLOEによる公共スペースの監視#
混雑した市場やカフェなどの公共スペースの監視映像には、一日を通して変化する人物、物体、アクティビティが混在しています。YOLOEはプロンプトフリーモードを使用してこの映像をリアルタイムで分析し、バッグ、テーブル、自転車などのアイテムを特定の指示なしで自動的に検出できます。

図 5. YOLOEは混雑した公共スペースで様々な物体を検出できます。
これは、放置されたアイテムを見つけたり、群衆の動きを追跡したりするセキュリティチームにとって特に有用です。YOLOEは一度に複数の物体を検出できるため、イベントや混雑時に公共スペースを管理しやすくなり、チームが情報を把握して迅速に対応できるよう支援します。
Link to this sectionYOLOEの利点と欠点#
コンピュータビジョンアプリケーションにYOLOEを使用する主な利点は以下の通りです。
- リアルタイムパフォーマンス: YOLOEは高速かつ効率的な処理に最適化されており、ライブビデオストリームや混雑した公共スペースのような動的な環境でもリアルタイム検出が可能です。
- スケーラビリティ: YOLOEはスケーラブルであり、セキュリティ、監視から小売、ヘルスケア、自律走行車まで、幅広いアプリケーションで良好に動作します。
- 使いやすさ: YOLOEはUltralytics Pythonパッケージでサポートされているため、既存のコンピュータビジョンプロジェクトに簡単に統合できます。
しかし、YOLOEを使用する際には留意すべき制限がいくつかあります。検討すべき要素を挙げます。
- 十分なトレーニングデータが必要: YOLOEはゼロショット検出をサポートしていますが、未知の物体に対するパフォーマンスは、トレーニングデータからどれだけうまく一般化できるかに依存します。場合によっては、高度に専門化されたタスクで良好なパフォーマンスを発揮するために、追加のデータやファインチューニングが必要になることがあります。
- 入力品質への依存: モデルの精度は、低品質の画像や動画の影響を受ける可能性があります。ぼやけた映像や照明が不十分な入力は、モデルが正確に物体を検出する能力を低下させるため、最適なパフォーマンスを得るには高品質な入力が重要です。
Link to this section重要なポイント#
YOLOEは、ユーザーがテキストや画像プロンプトで検出をガイドできるようにすることで、コンピュータビジョンにさらなる柔軟性をもたらします。シーンが急速に変化し、再トレーニングが選択肢にないような実世界の状況で優れた能力を発揮します。
手荷物の取り扱いから公共スペースの監視まで、YOLOEは新しいタスクに容易に適応します。AIがより身近になるにつれ、YOLOEのようなモデルは、より多くの産業が視覚技術を実用的かつ効率的な方法で使用できるよう支援しています。
私たちのコミュニティに参加し、GitHubリポジトリを探索してAIイノベーションについてさらに学びましょう。AI in retailやcomputer vision in healthcareなどの分野における最新の進歩については、ソリューションページをご覧ください。ライセンスオプションを確認し、今すぐコンピュータビジョンを始めましょう!






