ヨロビジョン深圳
深セン
今すぐ参加

コンピュータビジョンの応用がどのように機能するかを解説

Abirami Vina

5分で読めます

2024年8月9日

コンピュータビジョンの応用事例について深く掘り下げて解説します。また、物体検出やセグメンテーションなど、さまざまなコンピュータビジョンのタスクについてもご紹介します。

コンピュータビジョンモデルの歴史を振り返ると、コンピュータビジョンがどのように進化し、今日の高度なビジョンモデルに至ったかを知ることができます。Ultralytics YOLOv8のような最新モデルは、複数のコンピュータビジョンタスクをサポートしており、さまざまな分野で活用されています。 

この記事では、コンピュータビジョンとビジョンモデルの基本について解説します。それらがどのように機能し、さまざまな産業における多様な応用事例を紹介します。コンピュータビジョンの革新は、私たちの世界を静かに形作り、あらゆる場所に存在します。それらを一つずつ解き明かしていきましょう。 

コンピュータビジョンとは?

人工知能(AI)とは、人間の知能の一部を再現することを目的とした多くの技術を包含する包括的な用語です。AIのサブフィールドの一つがコンピュータビジョンです。コンピュータビジョンは、機械に周囲を見て、観察し、理解できる目を与えることに焦点を当てています。 

人間の視覚と同様に、コンピュータビジョンのソリューションは、物体を識別し、距離を計算し、動きを検出することを目的としています。しかし、人間は見て理解するための生涯にわたる経験を持っているのに対し、コンピュータは膨大な量のデータ、高解像度カメラ、および複雑なアルゴリズムに依存しています。 

図1. 人間の視覚とコンピュータビジョンの比較。

コンピュータビジョンシステムは、画像や動画などの視覚データを驚くべき速度と精度で処理および分析できます。大量の視覚情報を迅速かつ正確に分析できる能力により、コンピュータビジョンは製造業から医療まで、さまざまな産業で強力なツールとなっています。

ビジョンモデルはさまざまなコンピュータビジョンタスクをサポート

コンピュータビジョンモデルは、あらゆるコンピュータビジョンアプリケーションの中核です。これらは基本的に、深層学習技術を利用して、機械に視覚情報を解釈および理解する能力を与えるように設計された計算アルゴリズムです。ビジョンモデルは、画像分類から物体検出まで、重要なコンピュータビジョンタスクを可能にします。これらのタスクとそのユースケースについて詳しく見ていきましょう。 

画像分類

画像分類とは、画像を事前に定義されたクラスまたはカテゴリに分類し、ラベル付けすることです。YOLOv8のようなビジョンモデルは、ラベル付けされた画像の大規模なデータセットでトレーニングできます。トレーニング中、モデルは各クラスに関連付けられたパターンと特徴を認識することを学習します。トレーニング後、モデルは特徴を分析し、学習したパターンと比較することで、新しい、未知の画像のカテゴリを予測できます。 

図2. 画像分類の例。(出典:towardsdatascience.com)

画像分類にはさまざまな種類があります。たとえば、医療画像を扱う場合、二値分類を使用して、画像を健康または病気のような2つのグループに分割できます。別のタイプは、マルチクラス分類です。これは、豚、ヤギ、牛など、農場のさまざまな動物を分類するように、画像を多くのグループに分類するのに役立ちます。または、動物を哺乳類や鳥類に分類し、さらにライオン、トラ、ワシ、スズメなどの種に分類するなど、グループとサブグループに分類したい場合は、階層分類が最適なオプションです。

物体検出

物体検出とは、コンピュータ・ビジョンを用いて画像やビデオ・フレーム内の物体を識別し、位置を特定するプロセスである。物体検出は、物体の周囲にバウンディングボックスを描く「物体定位」と、各物体のカテゴリを識別する「物体分類」の2つのタスクで構成される。バウンディングボックスの注釈に基づき、ビジョンモデルは各オブジェクトカテゴリに特有のパターンと特徴を認識することを学習し、新しい未見の画像におけるこれらのオブジェクトの存在と位置を予測することができる。 

図3.YOLOv8による物体検出は、サッカーフィールド上の選手の検出に使用されている。

物体検出は、スポーツから海洋生物学に至るまで、さまざまな業界で多くの使用例がある。例えば小売業では、アマゾンのJust Walk Outテクノロジーが物体検知を利用して、顧客が手に取った商品を特定することでレジを自動化している。コンピューター・ビジョンとセンサー・データの組み合わせにより、顧客は商品を手に取り、列に並ぶことなく店を出ることができる。 

その仕組みを詳しく見てみよう:

  • 天井に設置されたカメラで店内を動き回る客を撮影し、この映像はビジョンモデルによってリアルタイムで処理される。
    ‍。

  • ‍ オブジェクト検出は、顧客が手に取ってカゴに入れた商品を正確に検出し、それに応じて仮想カートを更新するために使用される。

  • ‍ 棚の重量センサーが、商品の取り外しや交換を検知することで、精度を向上させる。
  • 顧客が店を出る際、物体検知や顔認識技術を使って顧客が店を出たことを確認し、クレジットカードなどの支払い情報を使って自動的に請求することができる。

セマンティック・セグメンテーションとインスタンス・セグメンテーション

セマンティックセグメンテーションとインスタンスセグメンテーションは、画像を意味のあるセグメントに分割するコンピュータビジョンのタスクである。セマンティックセグメンテーションは、ピクセルをその意味に基づいて分類し、カテゴリー内のすべてのオブジェクトを、同じラベルを持つ単一のエンティティとして扱います。これは、"空 "や "海 "のような数えられないオブジェクトや、"葉 "や "草 "のようなクラスタのラベル付けに適している。

一方、インスタンスセグメンテーションは、検出された各オブジェクトに一意のラベルを割り当てることで、 同じクラスの異なるインスタンスを区別することができます。インスタンスセグメンテーションは、オブジェクトの数と独立性が重要な、数えられるオブジェクトのセグメンテーションに使用できます。これにより、より正確な識別と区別が可能になります。

図4.セマンティックセグメンテーションとインスタンスセグメンテーションの例。

セマンティックセグメンテーションとインスタンスセグメンテーションの対比を、自動運転車に関連する例でより明確に理解することができる。セマンティックセグメンテーションは、シーンの内容を理解する必要があるタスクに適しており、自律走行車では、横断歩道や交通標識など、道路上の特徴を分類するために使用できる。一方、インスタンスセグメンテーションは、自律走行車において、個々の歩行者、車両、障害物を識別するために使用できる。 

ポーズ推定

ポーズ推定は、画像やビデオ内のオブジェクトのポーズのキーポイントを検出し、追跡することに焦点を当てたコンピュータビジョンのタスクです。人間のポーズ推定に最も一般的に使用され、キーポイントには肩や膝などの領域が含まれます。人間のポーズを推定することは、様々なアプリケーションにとって重要な行動や動作を理解し認識するのに役立ちます。

図5.YOLOv8による姿勢推定の例。

スポーツの世界では、選手の動きを分析するためにポーズ推定を利用することができる。NBAでは、試合中の選手の動きやポジションを研究するためにポーズ推定を使っている。肩、肘、膝、足首などの重要なポイントを追跡することで、ポーズ推定は選手の動きに関する詳細な洞察を提供します。これらの洞察は、コーチがより良い戦略を立て、トレーニングプログラムを最適化し、試合中にリアルタイムで調整を行うのに役立つ。また、データは選手の疲労や怪我のリスクを監視し、選手の健康とパフォーマンス全体を向上させるのに役立ちます。

バウンディングボックスによるオブジェクト検出

Oriented Bounding Boxes Object Detection(OBB)は、回転した長方形を使用して、画像内のオブジェクトを正確に識別し、位置を特定します。画像の軸に合わせる標準的なバウンディングボックスとは異なり、OBBはオブジェクトの向きに合わせて回転します。そのため、完全な水平や垂直ではないオブジェクトに特に有効です。OBBは、混雑した環境での重なりを防ぐために、回転したオブジェクトを正確にピンポイントで分離するのに適しています。

図6.YOLOV8を用いたボートの空撮画像に対するバウンディングボックスの検出例。

海上監視では、船舶の識別と追跡がセキュリティと資源管理の鍵となる。OBB検出は、船舶が密集していたり、様々な角度を向いている場合でも、船舶の正確な位置特定に使用できます。航路の監視、海上交通の管理、港湾業務の最適化に役立ちます。また、ハリケーンや原油流出などの災害発生後、船舶やインフラの損傷を迅速に特定・評価することで、災害対応にも役立ちます。

物体追跡

これまで、画像を扱うコンピュータビジョンのタスクについて説明してきた。オブジェクト追跡は、ビデオのフレーム全体を通してオブジェクトを追跡することができるコンピュータビジョンタスクです。検出アルゴリズムを用いて最初のフレームでオブジェクトを特定することから始まり、ビデオ中を移動するオブジェクトの位置を連続的に追跡します。オブジェクトトラッキングには、正確なトラッキングを維持するために、オブジェクト検出、特徴抽出、動き予測などの技術が含まれます。

図7.YOLOv8を使って魚を追跡する。

YOLOv8のようなビジョンモデルは、海洋生物学における魚の追跡に使用できる。水中カメラを使って、研究者は自然の生息地における魚の動きや行動を監視することができる。このプロセスは、最初のフレームで個々の魚を検出することから始まり、ビデオ全体を通してその位置を追跡します。魚の追跡は、回遊パターン、社会行動、環境との相互作用を科学者が理解するのに役立つ。また、魚の分布と豊度に関する洞察を提供することで、持続可能な漁業を支援する。

コンピュータビジョンの最終的な展望

コンピュータビジョンは、テクノロジーの利用方法や世界との関わり方を積極的に変えています。深層学習モデルと複雑なアルゴリズムを使用して画像や動画を理解することで、コンピュータビジョンはさまざまな業界におけるプロセスの効率化を支援します。物体検出や物体追跡といったコンピュータビジョンのタスクは、これまで想像もできなかったソリューションの実現を可能にしています。コンピュータビジョン技術の向上に伴い、将来はさらに革新的な応用が期待されます。 

共に学び、成長しましょう!AIへの貢献については、GitHubリポジトリをご覧ください。AIによる自動運転車農業などの業界の再定義についてもご確認ください。🚀

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました