Ultralytics YOLO

コンピュータビジョンの応用がどのように機能するかを探る

コンピュータビジョンの応用について深く掘り下げます。また、物体検知やセグメンテーションといった様々なコンピュータビジョンのタスクについても解説します。

ABAbirami Vina

5 min readAugust 9, 2024

コンピュータビジョンモデルの歴史を探った際、コンピュータビジョンがどのように進化し、今日私たちが利用している高度なビジョンモデルに至るまでの道のりを見てきました。Ultralytics YOLOv8のような最新のモデルは、複数のコンピュータビジョンタスクをサポートしており、さまざまなエキサイティングなアプリケーションで使用されています。

本記事では、コンピュータビジョンとビジョンモデルの基礎について解説します。それらがどのように機能し、さまざまな業界でどのように応用されているのかを見ていきましょう。コンピュータビジョンのイノベーションは至る所に存在し、静かに世界を形作っています。一つずつ解き明かしていきましょう。

Link to this sectionコンピュータビジョンとは何か？#

人工知能（AI）は、人間の知能の一部を再現することを目指す多くの技術を包含する包括的な用語です。AIのサブフィールドの一つがコンピュータビジョンです。コンピュータビジョンは、機械に周囲を見、観察し、理解できる「目」を与えることに焦点を当てています。

人間の視覚と同様に、コンピュータビジョンソリューションは、物体を識別し、距離を計算し、動きを検出することを目指します。しかし、見る・理解するための生涯にわたる経験を持つ人間とは異なり、コンピュータは膨大な量のデータ、高解像度カメラ、そして複雑なアルゴリズムに依存しています。

人間の視覚とコンピュータービジョンの比較

図1. 人間の視覚とコンピュータビジョンの比較。

コンピュータビジョンシステムは、画像や動画などの視覚データを驚異的な速度と精度で処理・分析できます。膨大な視覚情報を迅速かつ正確に分析できる能力により、コンピュータビジョンは製造業からヘルスケアまで、さまざまな業界で強力なツールとなっています。

Link to this sectionビジョンモデルはさまざまなコンピュータビジョンタスクをサポートします#

コンピュータビジョンモデルは、あらゆるコンピュータビジョンアプリケーションの核心です。これらは本質的に、ディープラーニング技術を活用した計算アルゴリズムであり、機械に視覚情報を解釈・理解する能力を与えるように設計されています。ビジョンモデルは、画像分類から物体検出に至るまで、重要なコンピュータビジョンタスクを可能にします。これらのタスクとユースケースについて、詳しく見ていきましょう。

Link to this section画像分類#

画像分類とは、画像を事前に定義されたクラスやカテゴリに分類し、ラベル付けするプロセスです。YOLOv8のようなビジョンモデルは、ラベル付けされた画像の膨大なデータセットを用いて学習させることができます。学習中、モデルは各クラスに関連するパターンや特徴を認識することを学びます。学習が完了すると、新しい未知の画像の特徴を分析し、学習したパターンと比較することで、その画像がどのカテゴリに属するかを予測できるようになります。

画像分類の例

図2. 画像分類の例。（出典: towardsdatascience.com）

画像分類にはさまざまなタイプがあります。例えば、医療画像を扱う場合、二値分類を使用して、健康か疾患かのように画像を2つのグループに分けることができます。もう一つのタイプはマルチクラス分類です。これは、農場のさまざまな動物を分類するように、豚、ヤギ、牛といった多くのグループに画像を分類するのに役立ちます。あるいは、動物をグループやサブグループに分類したい場合、例えば動物を哺乳類と鳥類に分け、さらにライオン、トラ、ワシ、スズメなどの種に分類する場合、階層的分類が最適な選択肢となります。

Link to this sectionオブジェクト検出#

物体検出は、コンピュータビジョンを使用して画像やビデオフレーム内の物体を特定し、配置を特定するプロセスです。これには、物体の周囲にバウンディングボックスを描画する「物体ローカライゼーション」と、各物体のカテゴリを特定する「物体分類」という2つのタスクが含まれます。バウンディングボックスのアノテーションに基づき、ビジョンモデルは各物体カテゴリに固有のパターンや特徴を認識し、新しい未知の画像内でのこれらの物体の存在と位置を予測することを学習します。

サッカーフィールド上の選手を検出するYOLOv8物体検出

図3. サッカー場で選手を検出するために使用されているYOLOv8の物体検出。

物体検出は、スポーツから海洋生物学まで、さまざまな業界で多くのユースケースがあります。例えば、小売業において、AmazonのJust Walk Out技術は、物体検出を使用して顧客が手に取った商品を識別し、チェックアウトを自動化しています。コンピュータビジョンとセンサーデータの組み合わせにより、顧客は列に並ぶことなく商品を持ち出し、店を出ることができます。

その仕組みを詳しく見てみましょう：

天井に取り付けられたカメラが店内を移動する顧客を捉え、この映像はビジョンモデルによってリアルタイムで処理されます。
物体検出を使用して、顧客が手に取りバスケットに入れた正確な商品を検出し、それに応じて仮想カートを更新します。
棚にある重量センサーは、商品の取り出しや補充を検出することで精度を向上させます。
顧客が店を出る際、物体検出と顔認識技術を使用して顧客が退店したことを確認し、クレジットカードなどの支払い詳細を使用して自動的に課金できます。

Link to this sectionセマンティックセグメンテーションとインスタンスセグメンテーション#

セマンティックセグメンテーションとインスタンスセグメンテーションは、画像を意味のあるセグメントに分割するのに役立つコンピュータビジョンタスクです。セマンティックセグメンテーションは、画素をその意味的意義に基づいて分類し、カテゴリ内のすべての物体を同じラベルを持つ単一のエンティティとして扱います。「空」や「海」のような数えられない物体や、「葉」や「草」のようなクラスターにラベルを付けるのに適しています。

一方、インスタンスセグメンテーションは、検出された各物体に固有のラベルを割り当てることで、同じクラスの異なるインスタンスを識別できます。インスタンスセグメンテーションを使用すると、物体の数や独立性が重要な、数えられる物体をセグメント化できます。これにより、より正確な識別と差別化が可能になります。

セマンティックセグメンテーションおよびインスタンスセグメンテーションの例

図4. セマンティックセグメンテーションとインスタンスセグメンテーションの例。

自動運転車に関連する例を通して、セマンティックセグメンテーションとインスタンスセグメンテーションの違いをより明確に理解できます。セマンティックセグメンテーションは、シーンの内容を理解する必要があるタスクに最適であり、自動運転車において横断歩道や交通標識などの道路上の特徴を分類するために使用できます。一方、インスタンスセグメンテーションは、自動運転車において個々の歩行者、車両、障害物を区別するために使用できます。

Link to this section姿勢推定#

姿勢推定は、画像や動画内の物体の姿勢のキーポイントを検出・追跡することに焦点を当てたコンピュータビジョンタスクです。これは主に人体姿勢推定に使用され、キーポイントには肩や膝などの領域が含まれます。人間の姿勢を推定することで、さまざまなアプリケーションに不可欠な動作や動きを理解・認識できるようになります。

YOLOv8を使用した姿勢推定の例

図5. YOLOv8を使用した姿勢推定の例。

姿勢推定はスポーツにおいて、アスリートの動きを分析するために使用できます。NBAでは、試合中の選手の動きや位置を研究するために姿勢推定を使用しています。肩、肘、膝、足首などのキーポイントを追跡することで、姿勢推定は選手の動きに関する詳細なインサイトを提供します。これらのインサイトは、コーチがより良い戦略を立て、トレーニングプログラムを最適化し、試合中にリアルタイムの調整を行うのに役立ちます。また、このデータは選手が疲労や怪我のリスクを監視し、全体的な選手の健康とパフォーマンスを向上させるのにも役立ちます。

Link to this section回転バウンディングボックスによる物体検出#

回転バウンディングボックスによる物体検出（OBB）は、回転した長方形を使用して画像内の物体を正確に特定し、配置します。画像軸と整列する標準的なバウンディングボックスとは異なり、OBBは物体の向きに合わせて回転します。これにより、完全に水平または垂直ではない物体に対して特に有用です。回転した物体を正確に特定し、隔離することで、混雑した環境での重複を防ぐのに最適です。

YOLOv8を使用したボートの航空画像における回転矩形ボックス検出

図6. YOLOv8を使用したボートの航空画像における回転バウンディングボックス検出の例。

海洋監視において、船舶の識別と追跡はセキュリティとリソース管理の鍵となります。OBB検出は、船舶が密集していたり、さまざまな角度を向いていたりする場合でも、船舶を正確に特定するために使用できます。これは航路の監視、海上交通の管理、港湾運営の最適化に役立ちます。また、ハリケーンや石油流出のような事象の後、船舶やインフラへの損傷を迅速に特定し評価することで、災害対応を支援することもできます。

Link to this section物体追跡#

これまでは画像を取り扱うコンピュータビジョンタスクについて議論してきました。物体追跡は、動画のフレーム全体にわたって物体を追跡できるコンピュータビジョンタスクです。まず検出アルゴリズムを使用して最初のフレーム内の物体を特定し、その後、動画内で物体が移動する際にその位置を継続的に追いかけます。物体追跡には、追跡精度を維持するための物体検出、特徴抽出、動き予測などの技術が関与しています。

YOLOv8を使用した魚の追跡

図7. YOLOv8を使用した魚の追跡。

YOLOv8のようなビジョンモデルは、海洋生物学において魚を追跡するために使用できます。水中カメラを使用して、研究者は自然の生息地における魚の動きや行動を監視できます。プロセスは、最初のフレームで個々の魚を検出することから始まり、動画全体を通してその位置を追跡します。魚の追跡は、科学者が回遊パターン、社会行動、環境との相互作用を理解するのに役立ちます。また、魚の分布や個体数に関するインサイトを提供することで、持続可能な漁業の実践をサポートします。

Link to this sectionコンピュータビジョンの最終展望#

コンピュータビジョンは、私たちが技術を使用し、世界と関わる方法を積極的に変えています。ディープラーニングモデルと複雑なアルゴリズムを使用して画像や動画を理解することで、コンピュータビジョンは業界が多くのプロセスを効率化するのを支援しています。物体検出や物体追跡のようなコンピュータビジョンタスクは、これまで想像もしなかったソリューションを作り出すことを可能にしています。コンピュータビジョン技術が進化し続けるにつれ、未来にはさらに多くの革新的なアプリケーションが待っています！

共に学び、成長しましょう！私たちのGitHubリポジトリを探索して、AIへの貢献をご覧ください。自動運転車や農業のような業界をAIでどのように再定義しているかを確認してください。🚀

Explore solutions

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

コンピュータビジョンの応用がどのように機能するかを探る

Link to this sectionコンピュータビジョンとは何か？#

Link to this sectionビジョンモデルはさまざまなコンピュータビジョンタスクをサポートします#

Link to this section画像分類#

Link to this sectionオブジェクト検出#

Link to this sectionセマンティックセグメンテーションとインスタンスセグメンテーション#

Link to this section姿勢推定#

Link to this section回転バウンディングボックスによる物体検出#

Link to this section物体追跡#

Link to this sectionコンピュータビジョンの最終展望#

Explore solutions

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

AIの未来を共に築き上げましょう！