ヨロビジョン深圳
深セン
今すぐ参加

YOLOEとは?コンピュータビジョンモデルをさらに進化させる

Abirami Vina

5分で読めます

2025年5月8日

YOLOEを使用すると、簡単なプロンプトや写真を使用して物体を検出する方法をご覧ください。モデルの再トレーニングや微調整なしで、よりスマートで高速なコンピュータビジョンが可能になります。

物体検出は、画像や動画内の物体を識別し、位置を特定することを目的とした、コンピュータビジョンの重要なタスクです。これは、機械が視覚データを理解し解釈することを可能にする人工知能(AI)の一分野であるコンピュータビジョンの重要な要素です。たとえば、物体検出は、写真の中の車を識別したり、ビデオフィードの中の人物を見つけたりするのに役立ちます。

物体検出のようなコンピュータビジョンタスクをサポートする最も有名なモデルシリーズの1つは、YOLO(You Only Look Once)モデルシリーズです。速度と精度を重視して設計されたYOLOモデルは、時間の経過とともに継続的に改善されています。例えば、最新バージョンの一つであるUltralytics YOLO11は、現実の状況で優れた性能を発揮し、より複雑な環境でも正確な結果を提供します。

この進歩をさらに推し進めるため、YOLOEと呼ばれる新しいモデルは、YOLOモデルの能力を拡張することを目指しています。新しいオブジェクトを認識するために再トレーニングを必要とする従来のモデルとは異なり、YOLOEは簡単なテキストまたは画像のプロンプトに従って、これまで見たことのないオブジェクトを検出できるため、変化する環境への適応性が大幅に向上します。

この記事では、YOLOEをユニークたらしめているもの、以前のYOLOモデルとの比較、そして今日からYOLOEを使い始める方法について詳しく見ていきます。それでは始めましょう!

YOLOEの概要

YOLOEは、物体検出をさらに一歩進めたコンピュータビジョンモデルです。2025年3月に清華大学の研究者によって発表されました。YOLOEが従来のモデルと異なるのは、オープンボキャブラリ検出を使用していることです。 

ほとんどのモデルは固定されたオブジェクトのリストを認識するようにトレーニングされていますが、YOLOEでは、短い説明またはサンプル画像を使用して、何を探すかを指定できます。例えば、「緑のバックパック」を探している場合、その説明を入力するか、モデルに写真を見せると、YOLOEはシーン内でそれを見つけます。

さらに、YOLOEはプロンプトがなくても、日常的なオブジェクトを多数検出できます。以前に見たことのないオブジェクトを認識するこの能力は、ゼロショット検出と呼ばれます。これは、タスクや関心のあるオブジェクトが予期せず変化する可能性のある動的な環境で特に役立ちます。

図1. YOLOEの機能。

YOLOEの主な機能

YOLOEは、実際のアプリケーションでのパフォーマンスを向上させるように設計された幅広い機能をサポートしています。構造化された入力と非構造化された入力の両方を処理できるYOLOEは、オブジェクト検出とセグメンテーションに新たな可能性を開きます。 

このモデルがもたらす主な機能をご紹介します。

  • プロンプトベースの検出: YOLOEは、短いテキストプロンプトまたはサンプル画像に基づいてオブジェクトを検索できます。これは、タスクが変更されるたびにモデルを再トレーニングする必要がないことを意味します。モデルに何を探しているかを説明または示すだけです。
  • インスタンスセグメンテーション: YOLOEは、オブジェクトの周りにバウンディングボックスを描画するだけでなく、インスタンスセグメンテーションを使用してオブジェクトの正確な形状を概説できます。これは、オブジェクトが重なっている場合や、オブジェクトの正確な境界を知る必要がある場合に特に役立ちます。
  • プロンプトフリーのオブジェクト認識: YOLOEは、特定の指示がなくてもオブジェクトを認識できます。事前に学習された一連の説明を使用してオブジェクトを迅速に識別し、プロセスをより高速かつ効率的にします。

YOLOEと他のYOLOモデルの比較

YOLOEについて理解を深めたところで、YOLOファミリーにある類似モデルを見ていきましょう。 

コンピュータビジョンが進歩するにつれて、YOLOモデルも進歩してきました。たとえば、Ultralytics YOLOv8は、セグメンテーションや分類などの新しいタスクのサポートをもたらしましたが、Ultralytics YOLO11のような後のバージョンは、より広範なタスクの精度とパフォーマンスの向上に焦点を当てています。

また、2024年1月にはYOLO-Worldがリリースされ、テキストプロンプトを使用する機能が導入され、ユーザーは検出したいオブジェクトを記述できるようになりました。YOLO-Worldはゼロショット検出に適したオプションでしたが、インスタンスセグメンテーションやビジュアルプロンプトのサポートなどの機能がありませんでした。 

YOLOEは、これらの機能を追加することでYOLO-Worldを基盤として構築し、柔軟性とパフォーマンスを向上させ、現実世界のコンピュータビジョンアプリケーション向けによりインパクトのあるツールを提供します。

Fig 2. YOLO-WorldとYOLOEはどちらもゼロショット検出をサポートしています。

Ultralytics PythonパッケージでのYOLOEの使用

特定のオブジェクトを検出したい場合でも、画像内のすべてを探索したい場合でも、YOLOEの導入は簡単です。このモデルはUltralytics Pythonパッケージでサポートされており、プロジェクトへの統合が容易です。次に、その使用方法を説明します。

Ultralyticsパッケージのインストール

最初のステップは、‘pip’のようなパッケージマネージャーを使用して、Ultralytics Pythonパッケージをインストールすることです。これは、ターミナルまたはコマンドプロンプトでコマンド“pip install ultralytics”を実行することで実行できます。

パッケージがインストールされると、モデルのロード、予測の実行、さまざまな検出モードの実験に必要なものがすべて揃います。インストール中に問題が発生した場合は、公式のUltralyticsドキュメントに役立つトラブルシューティングセクションがあります。 

YOLOEを使用して予測を実行する方法はいくつかあります。予測の実行とは、トレーニングされたモデルを使用して、画像またはビデオ内のオブジェクトを識別および特定することを意味します。これらの異なる方法を使用すると、特定のニーズに基づいてモデルとの対話方法をカスタマイズできます。

これらの方法について、一つずつ詳しく説明します。

テキストまたは画像のプロンプトによる特定のオブジェクトの検出

YOLOEは、短いテキスト記述に基づいてオブジェクトを検出できます。たとえば、移動中の馬を探している場合は、「馬が歩いている」のようなプロンプトを使用できます。

まず、事前学習済みの YOLOE モデルをロードし、モデルに探させたいものを記述したプロンプトを設定します。以下のコードスニペットを参照してください。

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

モデルとプロンプトの設定が完了したら、画像または動画に対してモデルを実行できます。コード内のファイルパスを、画像または動画ファイルへのパスに置き換えてください。

results = model.predict("path/to/your/image.jpg")
results[0].show()

これにより、プロンプトに基づいて検出されたオブジェクトが明確にマークされた画像が表示されます。「赤いスーツケース」、「自転車」、「シマウマ」など、探しているものに応じて、プロンプトを変更してさまざまなオブジェクトを検索できます。

図3. テキストプロンプトを使用して特定のオブジェクトを検出するYOLOEの使用例。

同様に、Ultralytics Pythonパッケージを使用して、画像でYOLOEをプロンプトできます。ビジュアルプロンプトモードでは、モデルは画像を使用して、別のシーンで類似したアイテムを見つけます。これは、説明が難しいオブジェクトや、明確なラベルがないオブジェクトに特に役立ちます。 

これに関するコードをより詳細に調べるには、Ultralyticsドキュメントを確認してください。

YOLOEを使用した一般的な物体検出

場合によっては、何を検索すればよいか正確にわからなかったり、特定のオブジェクトを探していない場合があります。そのような場合に、プロンプトフリーモードが役立ちます。 

このオプションを使用すると、説明を入力したり、サンプル画像を提供したりする必要はありません。YOLOE は画像を単独で分析し、人、動物、家具、日用品など、認識できるものをすべて検出します。

モデルに特定の指示を与えなくても、シーンを探索するのに役立つ方法です。混雑した部屋をスキャンしたり、アクティビティの多い映像を確認したりする場合でも、プロンプトフリーモードを使用すると、画像に何が存在するかをすばやく確認できます。 

以下のコードを使用すると、プロンプトなしモードでYOLOEを実行できます。まず、モデルをロードし、次に画像を処理して、画像内のオブジェクトを自動的に検出します。最後に、結果が表示され、検出されたオブジェクトが強調表示されます。 

ファイルパスは、実際の画像のパスに置き換えてください。

from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

以下の画像は、YOLOEがプロンプトフリーモードで検出できるものの例です。

図4。プロンプトフリーモードでYOLOEを使用。

YOLOEのリアルタイムアプリケーション

YOLOEは、テキストと画像のプロンプトの両方に応答できるため、リアルタイムアプリケーションにとって信頼性の高いツールです。その柔軟性は、タイミングと精度が不可欠なペースの速い環境で特に役立ちます。 

YOLOEがどのように使用できるか、実際の例をいくつか見てみましょう。

手荷物取扱いの改善:リアルタイムの手荷物検出

混雑した空港では、特に紛失した荷物がある場合、特定の荷物を見つけるのが困難です。YOLOEは、ライブビデオをスキャンし、「赤いバッグ」のような簡単なプロンプトに基づいてアイテムを迅速に識別することで、このプロセスを効率化できます。 

バッグが見つからない場合や置き忘れた場合、スタッフはプロンプトを簡単に変更して、「黒いスーツケース」など、別のアイテムを検索できます。この即座に適応できる機能により、空港スタッフは長時間の映像を確認したり、モデルを再トレーニングしたりすることなく、適切な荷物を迅速に見つけることができ、手荷物処理と紛失手荷物問題の解決がはるかに迅速かつ効率的になります。

YOLOEによる公共スペースの監視

混雑した市場やカフェなどの公共スペースの監視映像には、時間帯によって変化する人、物、活動が混在していることがよくあります。YOLOEは、プロンプトフリーモードを使用してこの映像をリアルタイムで分析し、特定の指示がなくても、バッグ、テーブル、自転車などのアイテムを自動的に検出できます。

図5:YOLOEは、混雑した公共スペースで様々な物体を検出できます。

これは、セキュリティチームが放置されたアイテムを見つけたり、群衆の動きを追跡したりするのに特に役立ちます。YOLOEは複数のオブジェクトを一度に検出できるため、イベント中や混雑時における公共スペースの管理が容易になり、チームは常に情報を把握し、迅速に対応できます。

YOLOEの利点と欠点

以下に、コンピュータビジョンアプリケーションにYOLOEを使用する主な利点をいくつか示します。

  • リアルタイムパフォーマンス: YOLOEは、高速かつ効率的な処理に最適化されており、ライブビデオストリームや混雑した公共スペースなどの動的な環境でも、リアルタイム検出が可能です。
  • スケーラビリティ: YOLOEはスケーラブルであり、セキュリティや監視から、小売、ヘルスケア、自動運転車まで、幅広いアプリケーションに適しています。
  • 使いやすさ:YOLOEはUltralytics Pythonパッケージでサポートされているため、既存のコンピュータビジョンプロジェクトに簡単に統合できます。

ただし、YOLOEを使用する際には、留意すべき点がいくつかあります。考慮すべき要素をいくつかご紹介します。

  • 十分な学習データを必要とする: YOLOEはゼロショット検出をサポートしていますが、未知のオブジェクトに対するパフォーマンスは、学習データからの汎化能力に依存します。高度に専門的なタスクで優れたパフォーマンスを発揮するには、追加のデータや微調整が必要になる場合があります。
  • 入力品質に左右されやすい: モデルの精度は、低品質の画像やビデオの影響を受ける可能性があります。ぼやけていたり、照明が不十分な入力は、モデルがオブジェクトを正確に検出する能力を低下させる可能性があるため、最適なパフォーマンスを得るには高品質の入力が重要です。

主なポイント

YOLOEは、テキストまたは画像のプロンプトで検出をガイドできるようにすることで、コンピュータビジョンに柔軟性をもたらします。シーンが急速に変化し、再トレーニングが不可能な現実世界の状況でうまく機能します。

手荷物処理から公共空間の監視まで、YOLOEは新しいタスクに容易に適応します。AIがより身近になるにつれて、YOLOEのようなモデルは、より多くの産業が視覚技術を実用的かつ効率的な方法で使用するのに役立っています。

AIのイノベーションについてさらに学ぶには、コミュニティにご参加いただき、GitHubリポジトリをご覧ください。ソリューションページでは、小売業におけるAIヘルスケアにおけるコンピュータビジョンなど、最新の進歩を紹介しています。当社のライセンスオプションをご覧になり、コンピュータビジョンを今すぐ始めましょう。

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました