Yolo 深圳
深セン
今すぐ参加

YOLOEとは?コンピュータビジョンモデルをさらに進化させる

Abirami Vina

5分で読めます

2025年5月8日

YOLOEを使用すると、簡単なプロンプトや写真を使用して物体を検出する方法をご覧ください。モデルの再トレーニングや微調整なしで、よりスマートで高速なコンピュータビジョンが可能になります。

物体検出は、画像や動画内の物体を識別し、位置を特定することを目的とした、コンピュータビジョンの重要なタスクです。これは、機械が視覚データを理解し解釈することを可能にする人工知能(AI)の一分野であるコンピュータビジョンの重要な要素です。たとえば、物体検出は、写真の中の車を識別したり、ビデオフィードの中の人物を見つけたりするのに役立ちます。

物体検出のようなコンピュータビジョンタスクをサポートするモデルの最も有名なシリーズの1つが、YOLO (You Only Look Once)モデルシリーズである。スピードと精度を追求して設計されたYOLO モデルは、時代とともに絶えず改良されてきた。例えば、最新バージョンの1つ Ultralytics YOLO11は、より複雑な環境においても正確な結果を提供し、実世界の状況において優れた性能を発揮します。

この進歩をさらに推し進め、YOLOEと呼ばれる新しいモデルは、YOLO モデルの能力を拡張することを目指している。新しい物体を認識するために再学習が必要な従来のモデルとは異なり、YOLOEは単純なテキストや画像の指示に従って、見たことのない物体をdetect することができる。

この記事では、YOLOEの特徴、これまでのYOLO モデルとの比較、そして今日からYOLO 使い始める方法について詳しく見ていこう。さっそく始めよう!

YOLOEの概要

YOLOEは、物体検出をさらに一歩進めたコンピュータビジョンモデルです。2025年3月に清華大学の研究者によって発表されました。YOLOEが従来のモデルと異なるのは、オープンボキャブラリ検出を使用していることです。 

ほとんどのモデルは固定されたオブジェクトのリストを認識するようにトレーニングされていますが、YOLOEでは、短い説明またはサンプル画像を使用して、何を探すかを指定できます。例えば、「緑のバックパック」を探している場合、その説明を入力するか、モデルに写真を見せると、YOLOEはシーン内でそれを見つけます。

さらに、プロンプトがなくても、YOLOEは多くの日常的な物体を自分でdetect することができる。この見たこともない物体を認識する能力は、ゼロショット検出と呼ばれる。これは、タスクや対象物が不意に変化するようなダイナミックな環境で特に有効だ。

図1. YOLOEの機能。

YOLOEの主な機能

YOLOEは、実際のアプリケーションでのパフォーマンスを向上させるように設計された幅広い機能をサポートしています。構造化された入力と非構造化された入力の両方を処理できるYOLOEは、オブジェクト検出とセグメンテーションに新たな可能性を開きます。 

このモデルがもたらす主な機能をご紹介します。

  • プロンプトベースの検出: YOLOEは、短いテキストプロンプトまたはサンプル画像に基づいてオブジェクトを検索できます。これは、タスクが変更されるたびにモデルを再トレーニングする必要がないことを意味します。モデルに何を探しているかを説明または示すだけです。
  • インスタンスセグメンテーション: YOLOEは、オブジェクトの周りにバウンディングボックスを描画するだけでなく、インスタンスセグメンテーションを使用してオブジェクトの正確な形状を概説できます。これは、オブジェクトが重なっている場合や、オブジェクトの正確な境界を知る必要がある場合に特に役立ちます。
  • プロンプトフリーのオブジェクト認識: YOLOEは、特定の指示がなくてもオブジェクトを認識できます。事前に学習された一連の説明を使用してオブジェクトを迅速に識別し、プロセスをより高速かつ効率的にします。

YOLOEと他のYOLO モデルの比較

さて、YOLOEとは何かについて理解を深めたところで、YOLO ファミリーの類似モデルをいくつか見てみよう。 

コンピュータービジョンの進歩とともに、YOLO モデルも進歩してきた。例えば Ultralytics YOLOv8は、セグメンテーションや分類といった新しいタスクをサポートするようになったが、Ultralytics YOLO11ような後のバージョンは、より幅広いタスクの精度とパフォーマンスの向上に重点を置いている。

また、YOLO2024年1月にリリースされ、ユーザーが見つけたいオブジェクトを説明できるように、プロンプトを書く機能を導入した。YOLOゼロショット検出のための素晴らしい選択肢だったが、インスタンスの分割や視覚的なプロンプトのサポートといった機能が欠けていた。 

YOLOEは、YOLOこれらの機能を追加し、柔軟性と性能を向上させ、実世界のコンピュータ・ビジョン・アプリケーションによりインパクトのあるツールを提供する。

図2. YOLOYOLOEはどちらもゼロショット検出をサポートしている。

YOLOEとUltralytics Python パッケージの使用

特定のオブジェクトをdetect したい場合でも、画像内のすべてを探索したい場合でも、YOLOEを使い始めるのは簡単です。このモデルはUltralytics Python パッケージでサポートされているため、プロジェクトに簡単に組み込むことができる。次に、使い方を説明しよう。

Ultralytics パッケージのインストール

最初のステップは、'pip'などのパッケージマネージャーを使用してUltralytics Python パッケージをインストールすることです。ターミナルまたはコマンドプロンプトで「pip installultralytics」コマンドを実行することで行うことができます。

パッケージがインストールされれば、モデルをロードし、予測を行い、さまざまな検出モードを試すために必要なものがすべて揃う。インストール中に問題が発生した場合は、Ultralytics 公式ドキュメントに役立つトラブルシューティングのセクションがあります。 

YOLOEを使用して予測を実行する方法はいくつかあります。予測の実行とは、トレーニングされたモデルを使用して、画像またはビデオ内のオブジェクトを識別および特定することを意味します。これらの異なる方法を使用すると、特定のニーズに基づいてモデルとの対話方法をカスタマイズできます。

これらの方法について、一つずつ詳しく説明します。

テキストまたは画像のプロンプトによる特定のオブジェクトの検出

YOLOEは、短いテキストの説明に基づいて物体をdetect することができます。例えば、動いている馬を探している場合、"horse walking "のようなプロンプトを使うことができる。

まず、事前学習済みの YOLOE モデルをロードし、モデルに探させたいものを記述したプロンプトを設定します。以下のコードスニペットを参照してください。

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

モデルとプロンプトの設定が完了したら、画像または動画に対してモデルを実行できます。コード内のファイルパスを、画像または動画ファイルへのパスに置き換えてください。

results = model.predict("path/to/your/image.jpg")
results[0].show()

これにより、プロンプトに基づいて検出されたオブジェクトが明確にマークされた画像が表示されます。「赤いスーツケース」、「自転車」、「シマウマ」など、探しているものに応じて、プロンプトを変更してさまざまなオブジェクトを検索できます。

図3.テキストプロンプトを使って特定の物体をdetect するためにYOLOEを使用した例。

同様に、Ultralytics Python パッケージを使えば、画像を使ってYOLOEにプロンプトを出すことができる。ビジュアルプロンプトモードでは、モデルは画像を使用して、別のシーンで似たような外観のアイテムを見つけます。これは、説明が難しいオブジェクトや、明確なラベルがないオブジェクトに特に便利です。 

このコードをより詳しく調べるには、Ultralytics ドキュメントをご覧ください。

YOLOEを使用した一般的な物体検出

場合によっては、何を検索すればよいか正確にわからなかったり、特定のオブジェクトを探していない場合があります。そのような場合に、プロンプトフリーモードが役立ちます。 

このオプションを使用すると、説明を入力したり、サンプル画像を提供したりする必要はありません。YOLOE は画像を単独で分析し、人、動物、家具、日用品など、認識できるものをすべて検出します。

モデルに特定の指示を与えなくても、シーンを探索するのに役立つ方法です。混雑した部屋をスキャンしたり、アクティビティの多い映像を確認したりする場合でも、プロンプトフリーモードを使用すると、画像に何が存在するかをすばやく確認できます。 

以下のコードを使用すると、プロンプトなしモードでYOLOEを実行できます。まず、モデルをロードし、次に画像を処理して、画像内のオブジェクトを自動的に検出します。最後に、結果が表示され、検出されたオブジェクトが強調表示されます。 

ファイルパスは、実際の画像のパスに置き換えてください。

from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

下の画像は、YOLOEがプロンプトフリーモードでdetect できるものの例である。

図4。プロンプトフリーモードでYOLOEを使用。

YOLOEのリアルタイムアプリケーション

YOLOEは、テキストと画像のプロンプトの両方に応答できるため、リアルタイムアプリケーションにとって信頼性の高いツールです。その柔軟性は、タイミングと精度が不可欠なペースの速い環境で特に役立ちます。 

YOLOEがどのように使用できるか、実際の例をいくつか見てみましょう。

手荷物取扱いの改善:リアルタイムの手荷物検出

混雑した空港では、特に紛失した荷物がある場合、特定の荷物を見つけるのが困難です。YOLOEは、ライブビデオをスキャンし、「赤いバッグ」のような簡単なプロンプトに基づいてアイテムを迅速に識別することで、このプロセスを効率化できます。 

バッグが見つからない場合や置き忘れた場合、スタッフはプロンプトを簡単に変更して、「黒いスーツケース」など、別のアイテムを検索できます。この即座に適応できる機能により、空港スタッフは長時間の映像を確認したり、モデルを再トレーニングしたりすることなく、適切な荷物を迅速に見つけることができ、手荷物処理と紛失手荷物問題の解決がはるかに迅速かつ効率的になります。

YOLOEによる公共スペースの監視

混雑した市場やカフェなどの公共スペースの監視映像には、時間帯によって変化する人、物、活動が混在していることがよくあります。YOLOEは、プロンプトフリーモードを使用してこの映像をリアルタイムで分析し、特定の指示がなくても、バッグ、テーブル、自転車などのアイテムを自動的に検出できます。

図5.YOLOEは人通りの多い公共空間で様々な物体をdetect できる。

これは、警備チームが無人の物品を発見したり、群衆の動きをtrack したりするのに特に役立ちます。一度に複数の物体をdetect できるYOLOEの能力は、イベントや混雑時の公共スペースの管理を容易にし、チームの情報収集と対応を支援する。

YOLOEの利点と欠点

以下に、コンピュータビジョンアプリケーションにYOLOEを使用する主な利点をいくつか示します。

  • リアルタイムパフォーマンス: YOLOEは、高速かつ効率的な処理に最適化されており、ライブビデオストリームや混雑した公共スペースなどの動的な環境でも、リアルタイム検出が可能です。
  • スケーラビリティ: YOLOEはスケーラブルであり、セキュリティや監視から、小売、ヘルスケア、自動運転車まで、幅広いアプリケーションに適しています。
  • 使いやすい:YOLOEはUltralytics Python パッケージでサポートされているため、既存のコンピューター・ビジョン・プロジェクトに簡単に統合できます。

ただし、YOLOEを使用する際には、留意すべき点がいくつかあります。考慮すべき要素をいくつかご紹介します。

  • 十分な学習データを必要とする: YOLOEはゼロショット検出をサポートしていますが、未知のオブジェクトに対するパフォーマンスは、学習データからの汎化能力に依存します。高度に専門的なタスクで優れたパフォーマンスを発揮するには、追加のデータや微調整が必要になる場合があります。
  • 入力品質に敏感:モデルの精度は、低画質の画像やビデオに影響されることがあります。不鮮明な入力や照明の不十分な入力は、モデルが物体を正確にdetect する能力を低下させる可能性があるため、最適なパフォーマンスを得るには高品質の入力が重要です。

主なポイント

YOLOEは、テキストまたは画像のプロンプトで検出をガイドできるようにすることで、コンピュータビジョンに柔軟性をもたらします。シーンが急速に変化し、再トレーニングが不可能な現実世界の状況でうまく機能します。

手荷物処理から公共空間の監視まで、YOLOEは新しいタスクに容易に適応します。AIがより身近になるにつれて、YOLOEのようなモデルは、より多くの産業が視覚技術を実用的かつ効率的な方法で使用するのに役立っています。

AIのイノベーションについてさらに学ぶには、コミュニティにご参加いただき、GitHubリポジトリをご覧ください。ソリューションページでは、小売業におけるAIヘルスケアにおけるコンピュータビジョンなど、最新の進歩を紹介しています。当社のライセンスオプションをご覧になり、コンピュータビジョンを今すぐ始めましょう。

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる