グリーンチェック
クリップボードにコピーされたリンク

YOLOEとは?コンピュータビジョンモデルをさらに進化させる

YOLOEを使えば、簡単なプロンプトや写真を使って対象物を見つけることができます。モデルを再トレーニングしたり微調整したりすることなく、よりスマートで高速なコンピュータビジョンを実現します。

物体検出は、画像やビデオ内の物体を識別して位置を特定することを目的とした、コンピュータビジョンの重要なタスクです。これは、機械が視覚データを理解し解釈することを可能にする人工知能(AI)の分野であるコンピュータビジョンの重要な部分である。例えば、物体検出は、写真内の車を識別したり、ビデオフィード内の人物を発見したりするのに役立ちます。

物体検出のようなコンピュータビジョンタスクをサポートするモデルの最も有名なシリーズの1つが、YOLO (You Only Look Once)モデルシリーズである。スピードと精度を追求して設計されたYOLO モデルは、時代とともに絶えず改良されてきた。例えば、最新バージョンの1つ Ultralytics YOLO11は、より複雑な環境においても正確な結果を提供し、実世界の状況において優れた性能を発揮します。

この進歩をさらに推し進め、YOLOEと呼ばれる新しいモデルは、YOLO モデルの能力を拡張することを目指している。新しい物体を認識するために再学習が必要な従来のモデルとは異なり、YOLOEは単純なテキストや画像の指示に従って、見たことのない物体を検出することができる。

この記事では、YOLOEの特徴、これまでのYOLO モデルとの比較、そして今日からYOLO 使い始める方法について詳しく見ていこう。さっそく始めよう!

YOLOEの概要

YOLOEは、物体検出をさらに一歩進めたコンピュータビジョンモデルである。清華大学の研究者によって2025年3月に発表された。YOLOEが従来のモデルと異なるのは、オープン語彙検出を採用している点だ。 

ほとんどのモデルは、固定されたオブジェクトのリストを認識するように訓練されていますが、YOLOEでは、短い説明や画像の例を使って、何を探すかを指定することができます。例えば、「緑色のリュックサック」を探している場合、その説明を入力するか、モデルに写真を見せると、YOLOEはシーン内からそのリュックサックを探し出す。

さらに、プロンプトがなくても、YOLOEは多くの日常的な物体を自分で検出することができる。この見たこともない物体を認識する能力は、ゼロショット検出と呼ばれる。これは、タスクや対象物が不意に変化するようなダイナミックな環境で特に有効だ。

図1.YOLOEの能力を見る。

YOLOEの主な特徴

YOLOEは、実世界のアプリケーションにおける性能を向上させるために設計された、幅広い機能をサポートしている。構造化入力と非構造化入力の両方を扱う能力により、YOLOEは物体検出とセグメンテーションの新たな可能性を切り開く。 

このモデルがもたらす主な特徴をいくつか紹介しよう:

  • プロンプトベースの検出: YOLOEは、短いテキストプロンプトまたは画像例に基づいてオブジェクトを検索することができます。これは、タスクが変わるたびにモデルを再トレーニングする必要がないことを意味します。
    ‍探しているものを説明するか、モデルに見せるだけです。
  • インスタンス分割: オブジェクトの周囲にバウンディングボックスを描くことに加えて、YOLOEはインスタンス・セグメンテーションを使って、オブジェクトの正確な形状の輪郭を描くことができます。これは、オブジェクトが重なっているときや、オブジェクトの正確な境界を知る必要があるときに特に役立ちます。
  • プロンプト不要の物体認識:YOLOEは、具体的な指示がなくても物体を認識することができます。事前に学習された説明文のセットを使用して物体をすばやく識別するため、プロセスがより速く効率的になります。

YOLOEと他のYOLO モデルの比較

さて、YOLOEとは何かについて理解を深めたところで、YOLO ファミリーの類似モデルをいくつか見てみよう。 

コンピュータービジョンの進歩とともに、YOLO モデルも進歩してきた。例えば Ultralytics YOLOv8は、セグメンテーションや分類といった新しいタスクをサポートするようになったが、Ultralytics YOLO11ような後のバージョンは、より幅広いタスクの精度とパフォーマンスの向上に重点を置いている。

また、YOLO2024年1月にリリースされ、ユーザーが見つけたいオブジェクトを説明できるように、プロンプトを書く機能を導入した。YOLOゼロショット検出のための優れたオプションだったが、インスタンスの分割や視覚的なプロンプトのサポートといった機能が欠けていた。 

YOLOEは、YOLOこれらの機能を追加し、柔軟性と性能を向上させ、実世界のコンピュータ・ビジョン・アプリケーションによりインパクトのあるツールを提供する。

図2. YOLOYOLOEはどちらもゼロショット検出をサポートしている。

YOLOEとUltralytics Python パッケージの使用

特定のオブジェクトを検出したい場合でも、画像内のすべてを探索したい場合でも、YOLOEを使い始めるのは簡単です。このモデルはUltralytics Python パッケージでサポートされているため、プロジェクトに簡単に組み込むことができる。次に、使い方を説明しよう。

Ultralytics パッケージのインストール

最初のステップは、'pip'などのパッケージマネージャーを使用してUltralytics Python パッケージをインストールすることです。ターミナルまたはコマンドプロンプトで「pip installultralytics」コマンドを実行することで行うことができます。

パッケージがインストールされれば、モデルをロードし、予測を行い、さまざまな検出モードを試すために必要なものがすべて揃う。インストール中に問題が発生した場合は、Ultralytics 公式ドキュメントに役立つトラブルシューティングのセクションがあります。 

YOLOEを使って予測を実行するには、いくつかの異なる方法がある。予測を実行するということは、学習されたモデルを使用して、画像やビデオ内のオブジェクトを識別し、位置を特定することを意味します。これらの異なる方法によって、特定のニーズに基づいてモデルとのインタラクション方法をカスタマイズすることができます。

それぞれの方法について、ひとつずつ説明しよう。

テキストまたは画像プロンプトによる特定オブジェクトの検出

YOLOEは、短いテキストの説明に基づいて物体を検出することができます。例えば、動いている馬を探している場合、"horse walking "のようなプロンプトを使うことができる。

始めるには、まず、事前にトレーニングされたYOLOEモデルをロードし、以下のコード・スニペットに示すように、プロンプト(モデルに何を探して欲しいかの説明)を設定する。

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

モデルとプロンプトを設定したら、画像またはビデオでモデルを実行できます。コード内のファイルパスを画像またはビデオファイルのパスに置き換えてください:

results = model.predict("path/to/your/image.jpg")
results[0].show()

これにより、プロンプトに基づいて検出されたオブジェクトが明記された画像が表示されます。赤いスーツケース」、「自転車」、「シマウマ」など、探しているものに応じて、プロンプトを変更してさまざまなオブジェクトを検索できます。

図3.テキストプロンプトを使って特定の物体を検出するためにYOLOEを使用した例。

同様に、Ultralytics Python パッケージを使えば、画像を使ってYOLOEにプロンプトを出すことができる。ビジュアルプロンプトモードでは、モデルは画像を使用して、別のシーンで似たような外観のアイテムを見つけます。これは、説明が難しいオブジェクトや、明確なラベルがないオブジェクトに特に便利です。 

このコードをより詳しく調べるには、Ultralytics ドキュメントをご覧ください。

YOLOEによる一般物体検出

場合によっては、何を検索すればいいのかよくわからなかったり、特定のオブジェクトを探していなかったりすることもあるだろう。そんなときに便利なのが、プロンプト・フリー・モードだ。 

このオプションでは、説明を入力したり、例となる画像を提供したりする必要はありません。YOLOEは、単にそれ自身で画像を分析し、人、動物、家具、日常的なオブジェクトなど、認識できるものすべてを検出します。

これは、モデルに特別な指示を与えることなく、シーンを探索するのに役立つ方法です。混雑した室内をスキャンする場合でも、アクティビティの多い映像を確認する場合でも、プロンプトフリーモードがあれば、画像に何が写っているかを素早く確認することができます。 

以下のコードを使えば、YOLOEをプロンプトなしモードで実行できる。まず、モデルがロードされ、次に画像を処理し、その中のオブジェクトを自動的に検出します。最後に、結果が表示され、検出されたオブジェクトがハイライトされます。 

ファイルパスは必ず画像の実際のパスに置き換えてください。

from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

下の画像は、YOLOEがプロンプトフリーモードで検出できるものの例である。

図4.プロンプトフリーモードでのYOLOEの使用。

YOLOEのリアルタイム・アプリケーション

YOLOEは、テキストと画像の両方のプロンプトに反応する能力を備えているため、リアルタイム・アプリケーションのための信頼性の高いツールとなっている。その柔軟性は、タイミングと正確さが不可欠な、ペースの速い環境で特に役立ちます。 

YOLOEがどのように使われるのか、実例をいくつか挙げてみよう。

手荷物処理の改善リアルタイム手荷物検知

混雑した空港では、特定の荷物の場所を特定することは、特に紛失したバッグに対処する際に困難な場合があります。YOLOEは、ライブ映像のスキャンを支援し、"赤いバッグ "のような簡単なプロンプトに基づいて素早くアイテムを特定することで、このプロセスを合理化することができる。 

バッグが紛失したり、置き忘れたりした場合、スタッフはプロンプトを簡単に変更して、"黒いスーツケース "のような別のアイテムを探すことができる。このように即座に適応する能力により、空港職員は長時間の映像を見直したり、モデルを再トレーニングしたりすることなく、正しい荷物を素早く見つけることができ、手荷物の取り扱いや紛失した荷物の問題の解決をより迅速かつ効率的に行うことができる。

YOLOEで公共スペースを監視

混雑した市場やカフェなどの公共スペースの監視映像には、一日を通して変化する人、物、行動が混在していることが多い。YOLOEは、プロンプトフリーモードを使ってリアルタイムでこの映像を分析し、特定の指示を必要とせずに、バッグ、テーブル、自転車などのアイテムを自動的に検出することができます。

図5.YOLOEは人通りの多い公共空間で様々な物体を検出できる。

これは、警備チームが無人の物品を発見したり、群衆の動きを追跡したりするのに特に役立ちます。一度に複数の物体を検知できるYOLOEの能力は、イベントや混雑時の公共スペースの管理を容易にし、チームの情報収集と対応を支援する。

YOLOEの長所と短所

YOLOEをコンピュータビジョンアプリケーションに使用する主な利点は以下の通りです:

  • リアルタイム性能:YOLOEは、高速で効率的な処理に最適化されているため、ライブ・ビデオ・ストリームや混雑した公共スペースのようなダイナミックな環境でも、リアルタイムの検出が可能です。
    ‍。
  • スケーラビリティ:YOLOEはスケーラブルで、セキュリティや監視から小売、ヘルスケア、自律走行車まで、さまざまな用途に適している。
  • 使いやすい:YOLOEはUltralytics Python パッケージでサポートされているため、既存のコンピューター・ビジョン・プロジェクトに簡単に統合できます。

しかし、YOLOEを使用する際には、いくつか注意すべき制限がある。以下は、考慮すべきいくつかの要素である:

  • 十分な学習データが必要:YOLOEはゼロショット検出をサポートしているが、未知の物体に対する性能は、学習データからどれだけうまく汎化できるかにかかっている。場合によっては、高度に特化したタスクで優れた性能を発揮するために、追加データや微調整が必要になることもある。
  • 入力品質に敏感:モデルの精度は、低画質の画像やビデオによって影響を受ける可能性があります。不鮮明な入力や照明の不十分な入力は、モデルが物体を正確に検出する能力を低下させる可能性があるため、最適なパフォーマンスを得るには高品質の入力が重要です。

要点

YOLOEは、ユーザーがテキストや画像のプロンプトで検出をガイドできるようにすることで、コンピュータ・ビジョンに柔軟性をもたらす。YOLOEは、シーンが急速に変化し、再学習が不可能な実世界の状況において効果的である。

手荷物取り扱いから公共スペースの監視まで、YOLOEは新しいタスクに簡単に適応する。AIがより身近になるにつれ、YOLOEのようなモデルは、より多くの産業が実用的で効率的な方法でビジョン技術を使用するのに役立っている。

私たちのコミュニティに参加して、GitHub リポジトリを探索し、AIのイノベーションについてもっと学びましょう。当社のソリューションページで、小売業におけるAIや ヘルスケアにおけるコンピュータビジョンのような分野における最新の進歩を発見してください。ライセンスオプションをチェックして、今すぐコンピュータビジョンを始めましょう!

リンクトインのロゴツイッターのロゴFacebookのロゴコピー・リンク・シンボル

このカテゴリの続きを読む

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう