YOLOEを使用すると、簡単なプロンプトや写真を使用して物体を検出する方法をご覧ください。モデルの再トレーニングや微調整なしで、よりスマートで高速なコンピュータビジョンが可能になります。
YOLOEを使用すると、簡単なプロンプトや写真を使用して物体を検出する方法をご覧ください。モデルの再トレーニングや微調整なしで、よりスマートで高速なコンピュータビジョンが可能になります。
物体検出は、画像や動画内の物体を識別し、位置を特定することを目的とした、コンピュータビジョンの重要なタスクです。これは、機械が視覚データを理解し解釈することを可能にする人工知能(AI)の一分野であるコンピュータビジョンの重要な要素です。たとえば、物体検出は、写真の中の車を識別したり、ビデオフィードの中の人物を見つけたりするのに役立ちます。
物体検出のようなコンピュータビジョンタスクをサポートするモデルの最も有名なシリーズの1つが、YOLO (You Only Look Once)モデルシリーズである。スピードと精度を追求して設計されたYOLO モデルは、時代とともに絶えず改良されてきた。例えば、最新バージョンの1つ Ultralytics YOLO11は、より複雑な環境においても正確な結果を提供し、実世界の状況において優れた性能を発揮します。
この進歩をさらに推し進め、YOLOEと呼ばれる新しいモデルは、YOLO モデルの能力を拡張することを目指している。新しい物体を認識するために再学習が必要な従来のモデルとは異なり、YOLOEは単純なテキストや画像の指示に従って、見たことのない物体をdetect することができる。
この記事では、YOLOEの特徴、これまでのYOLO モデルとの比較、そして今日からYOLO 使い始める方法について詳しく見ていこう。さっそく始めよう!
YOLOEは、物体検出をさらに一歩進めたコンピュータビジョンモデルです。2025年3月に清華大学の研究者によって発表されました。YOLOEが従来のモデルと異なるのは、オープンボキャブラリ検出を使用していることです。
ほとんどのモデルは固定されたオブジェクトのリストを認識するようにトレーニングされていますが、YOLOEでは、短い説明またはサンプル画像を使用して、何を探すかを指定できます。例えば、「緑のバックパック」を探している場合、その説明を入力するか、モデルに写真を見せると、YOLOEはシーン内でそれを見つけます。
さらに、プロンプトがなくても、YOLOEは多くの日常的な物体を自分でdetect することができる。この見たこともない物体を認識する能力は、ゼロショット検出と呼ばれる。これは、タスクや対象物が不意に変化するようなダイナミックな環境で特に有効だ。

YOLOEは、実際のアプリケーションでのパフォーマンスを向上させるように設計された幅広い機能をサポートしています。構造化された入力と非構造化された入力の両方を処理できるYOLOEは、オブジェクト検出とセグメンテーションに新たな可能性を開きます。
このモデルがもたらす主な機能をご紹介します。
さて、YOLOEとは何かについて理解を深めたところで、YOLO ファミリーの類似モデルをいくつか見てみよう。
コンピュータービジョンの進歩とともに、YOLO モデルも進歩してきた。例えば Ultralytics YOLOv8は、セグメンテーションや分類といった新しいタスクをサポートするようになったが、Ultralytics YOLO11ような後のバージョンは、より幅広いタスクの精度とパフォーマンスの向上に重点を置いている。
また、YOLO2024年1月にリリースされ、ユーザーが見つけたいオブジェクトを説明できるように、プロンプトを書く機能を導入した。YOLOゼロショット検出のための素晴らしい選択肢だったが、インスタンスの分割や視覚的なプロンプトのサポートといった機能が欠けていた。
YOLOEは、YOLOこれらの機能を追加し、柔軟性と性能を向上させ、実世界のコンピュータ・ビジョン・アプリケーションによりインパクトのあるツールを提供する。

特定のオブジェクトをdetect したい場合でも、画像内のすべてを探索したい場合でも、YOLOEを使い始めるのは簡単です。このモデルはUltralytics Python パッケージでサポートされているため、プロジェクトに簡単に組み込むことができる。次に、使い方を説明しよう。
最初のステップは、'pip'などのパッケージマネージャーを使用してUltralytics Python パッケージをインストールすることです。ターミナルまたはコマンドプロンプトで「pip installultralytics」コマンドを実行することで行うことができます。
パッケージがインストールされれば、モデルをロードし、予測を行い、さまざまな検出モードを試すために必要なものがすべて揃う。インストール中に問題が発生した場合は、Ultralytics 公式ドキュメントに役立つトラブルシューティングのセクションがあります。
YOLOEを使用して予測を実行する方法はいくつかあります。予測の実行とは、トレーニングされたモデルを使用して、画像またはビデオ内のオブジェクトを識別および特定することを意味します。これらの異なる方法を使用すると、特定のニーズに基づいてモデルとの対話方法をカスタマイズできます。
これらの方法について、一つずつ詳しく説明します。
YOLOEは、短いテキストの説明に基づいて物体をdetect することができます。例えば、動いている馬を探している場合、"horse walking "のようなプロンプトを使うことができる。
まず、事前学習済みの YOLOE モデルをロードし、モデルに探させたいものを記述したプロンプトを設定します。以下のコードスニペットを参照してください。
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))モデルとプロンプトの設定が完了したら、画像または動画に対してモデルを実行できます。コード内のファイルパスを、画像または動画ファイルへのパスに置き換えてください。
results = model.predict("path/to/your/image.jpg")
results[0].show()これにより、プロンプトに基づいて検出されたオブジェクトが明確にマークされた画像が表示されます。「赤いスーツケース」、「自転車」、「シマウマ」など、探しているものに応じて、プロンプトを変更してさまざまなオブジェクトを検索できます。

同様に、Ultralytics Python パッケージを使えば、画像を使ってYOLOEにプロンプトを出すことができる。ビジュアルプロンプトモードでは、モデルは画像を使用して、別のシーンで似たような外観のアイテムを見つけます。これは、説明が難しいオブジェクトや、明確なラベルがないオブジェクトに特に便利です。
このコードをより詳しく調べるには、Ultralytics ドキュメントをご覧ください。
場合によっては、何を検索すればよいか正確にわからなかったり、特定のオブジェクトを探していない場合があります。そのような場合に、プロンプトフリーモードが役立ちます。
このオプションを使用すると、説明を入力したり、サンプル画像を提供したりする必要はありません。YOLOE は画像を単独で分析し、人、動物、家具、日用品など、認識できるものをすべて検出します。
モデルに特定の指示を与えなくても、シーンを探索するのに役立つ方法です。混雑した部屋をスキャンしたり、アクティビティの多い映像を確認したりする場合でも、プロンプトフリーモードを使用すると、画像に何が存在するかをすばやく確認できます。
以下のコードを使用すると、プロンプトなしモードでYOLOEを実行できます。まず、モデルをロードし、次に画像を処理して、画像内のオブジェクトを自動的に検出します。最後に、結果が表示され、検出されたオブジェクトが強調表示されます。
ファイルパスは、実際の画像のパスに置き換えてください。
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()下の画像は、YOLOEがプロンプトフリーモードでdetect できるものの例である。

YOLOEは、テキストと画像のプロンプトの両方に応答できるため、リアルタイムアプリケーションにとって信頼性の高いツールです。その柔軟性は、タイミングと精度が不可欠なペースの速い環境で特に役立ちます。
YOLOEがどのように使用できるか、実際の例をいくつか見てみましょう。
混雑した空港では、特に紛失した荷物がある場合、特定の荷物を見つけるのが困難です。YOLOEは、ライブビデオをスキャンし、「赤いバッグ」のような簡単なプロンプトに基づいてアイテムを迅速に識別することで、このプロセスを効率化できます。
バッグが見つからない場合や置き忘れた場合、スタッフはプロンプトを簡単に変更して、「黒いスーツケース」など、別のアイテムを検索できます。この即座に適応できる機能により、空港スタッフは長時間の映像を確認したり、モデルを再トレーニングしたりすることなく、適切な荷物を迅速に見つけることができ、手荷物処理と紛失手荷物問題の解決がはるかに迅速かつ効率的になります。
混雑した市場やカフェなどの公共スペースの監視映像には、時間帯によって変化する人、物、活動が混在していることがよくあります。YOLOEは、プロンプトフリーモードを使用してこの映像をリアルタイムで分析し、特定の指示がなくても、バッグ、テーブル、自転車などのアイテムを自動的に検出できます。

これは、警備チームが無人の物品を発見したり、群衆の動きをtrack したりするのに特に役立ちます。一度に複数の物体をdetect できるYOLOEの能力は、イベントや混雑時の公共スペースの管理を容易にし、チームの情報収集と対応を支援する。
以下に、コンピュータビジョンアプリケーションにYOLOEを使用する主な利点をいくつか示します。
ただし、YOLOEを使用する際には、留意すべき点がいくつかあります。考慮すべき要素をいくつかご紹介します。
YOLOEは、テキストまたは画像のプロンプトで検出をガイドできるようにすることで、コンピュータビジョンに柔軟性をもたらします。シーンが急速に変化し、再トレーニングが不可能な現実世界の状況でうまく機能します。
手荷物処理から公共空間の監視まで、YOLOEは新しいタスクに容易に適応します。AIがより身近になるにつれて、YOLOEのようなモデルは、より多くの産業が視覚技術を実用的かつ効率的な方法で使用するのに役立っています。
AIのイノベーションについてさらに学ぶには、コミュニティにご参加いただき、GitHubリポジトリをご覧ください。ソリューションページでは、小売業におけるAIやヘルスケアにおけるコンピュータビジョンなど、最新の進歩を紹介しています。当社のライセンスオプションをご覧になり、コンピュータビジョンを今すぐ始めましょう。