YOLO Vision Shenzhen
深セン
今すぐ参加

コンピュータビジョンにおける教師あり学習と教師なし学習の比較

コンピュータビジョンにおける教師あり学習と教師なし学習の違い、およびデータやプロジェクトの目標に合わせて適切なアプローチを選択する方法について学びましょう。

Ultralyticsでコンピュータービジョンプロジェクトをスケールアップ

始める

人工知能(AI)は、機械に人間の知能に似た学習や推論の方法を教えるという中核的な概念に基づいて構築されています。人間が直接的な指導や、パターンや経験の観察といったさまざまな方法を通じて学ぶのと同様に、AIや機械学習システムも、これらと同じアプローチに従うように設計されています。

具体的には、機械学習アルゴリズムの場合、システムは個々のタスクごとに明示的にプログラムされるのではなく、データから学習するように訓練されます。機械学習モデルは、固定されたルールに依存するのではなく、データ内のパターンを識別し、そのパターンに基づいて予測や判断を行います。

例えば、コンピュータビジョンは、AIや機械学習の一分野であり、システムが画像や動画などの視覚情報を解釈・理解できるようにすることに焦点を当てています。物体の認識から、大規模なデータセットに潜むパターンの特定に至るまで、これらのシステムは、学習のためのトレーニング方法に大きく依存しています。

利用可能なデータの種類や解決すべき課題に応じて、これらのシステムを学習させるために様々なAI学習手法が用いられます。 

一部のコンピュータビジョンモデルは、ラベル付きデータから学習します。これは、各入力に正解が紐付けられていることを意味し、すべての画像やデータポイントには、それが何を表しているかをモデルに伝える事前定義されたラベルが付いています。これにより、モデルは入力と期待される出力の関係を学習し、これまで見たことのない新しいデータに対して正確な予測を行う能力を向上させることができます。

他の視覚モデルは、あらかじめ定義された答えが与えられていない「ラベルなしデータ」から学習し、データそのものの中に存在するパターンや関係性を特定することに重点を置いています。これらのアプローチは、それぞれ「教師あり学習」と「教師なし学習」として知られており、多くの最先端のコンピュータビジョンシステムの基盤となっています。

この記事では、教師あり学習と教師なし学習について、それらがコンピュータビジョンでどのように活用されているか、そして自身のビジョンAIプロジェクトに最適なアプローチをどのように選べばよいかを解説します。さっそく始めましょう!

AI学習の手法がコンピュータビジョンにどのような役割を果たしているか

人工知能は、傘のようなものだと考えてください。それは、通常は人間の知性を必要とするようなタスクを機械が実行できるようにする、さまざまな技術を包括する概念です。この「傘」の下では、機械学習が重要な分野であり、これによりシステムは固定されたルールだけに頼るのではなく、データから学習することが可能になります。

機械学習において、さまざまな学習手法によって、モデルがどのように学習し、時間とともに改善していくかが決まります。 教師あり学習(正解が与えられたラベル付きデータから学習する)、教師なし学習(ラベルのないデータからパターンを識別する)、強化学習(フィードバックや報酬を用いた試行錯誤を通じて学習する)、半教師あり学習(少量のラベル付きデータと大量のラベルなしデータを組み合わせる)といったアプローチは、システムが入力データを処理し、出力データを生成する方法を規定しています。

図1. AI学習手法の概要(出典

特に、コンピュータビジョンシステムは、視覚データを解釈・理解するために、こうした学習手法を用いて構築されています。教師あり学習は、モデルが明確にラベル付けされた例から学習し、正確で信頼性の高い結果を生成できるため、最も一般的に用いられている手法です。 

例えば、モデルを「猫」や「犬」とラベル付けされた画像で学習させると、形状、耳、顔の構造などの特徴を学習し、分類アルゴリズムを用いてclassify 画像を正しくclassify できるようになります。一方、コンピュータビジョンでは、データのパターンを発見したり、ラベル付きデータが限られている場合の性能を向上させたりするために、教師なし学習や半教師あり学習もよく用いられます。

コンピュータビジョンにおける教師あり学習モデルの活用について

教師あり学習アルゴリズムは、教室の授業に例えることができます。教室では、教師が例題と正解を示し、生徒が何が正しく何が間違っているかを学べるようにします。機械学習においても、モデルはラベル付きデータを用いて同様の方法で学習します。ラベル付きデータとは、各入力データに既知の出力結果が対応付けられているデータのことです。

例えば、野球の試合の分析を自動化するコンピュータビジョンシステムの開発に取り組んでいるとしましょう。Ultralytics のようなモデルを、ボール、バット、選手といったオブジェクトにラベルが付けられた画像や動画フレームを使って学習させることができます。 

各オブジェクトには位置情報とカテゴリがタグ付けされ、モデルが何を検出すべきかを学習できるようになります。時間の経過とともに、モデルは新しい映像内でこれらのオブジェクトをdetect 特定できるようになり、フレームをまたいだボールの追跡や選手の検出といったユースケースに対応できるようになります。

図2. 教師あり学習による物体検出の例(出典

物体検出以外にも、教師あり学習は、精度と一貫性が重要とされる画像分類、インスタンスセグメンテーション、姿勢推定など、幅広いコンピュータビジョンタスクで広く活用されています。これらの各タスクにおいて、モデルはラベル付きデータから学習し、特定のパターンを識別して、新しい入力に対して信頼性の高い予測を行います。

これらのモデルは通常、ニューラルネットワークを用いてデータから直接パターンを学習する機械学習の一種であるディープラーニングを用いて構築されます。ニューラルネットワークは、人間の脳の働きを大まかに模倣した方法で情報を処理するように設計されており、これによりモデルは大規模なデータセットから複雑な視覚的特徴を学習することが可能になります。

従来のコンピュータビジョン手法では、手動で設計された特徴量と、サポートベクターマシン(SVM:カテゴリ間の最適な境界線を見出すclassify モデル)や決定木(データを枝に分割することで判断を下すモデル)といったアルゴリズムを組み合わせることが多かった。 

対照的に、今日のコンピュータビジョンモデルはディープラーニングを用いてデータからこれらの特徴を自動的に学習するため、大規模かつ非常に詳細な視覚的タスクをより効果的に処理できるようになっている。

ビジョンAIにおける教師なし学習モデルの必要性を理解する

コンピュータビジョン分野では教師あり学習が主流ですが、ラベル付きデータが入手できない、あるいは作成に多大なコストや時間がかかるようなビジョンアプリケーションも存在します。 

このような場合、教師なし学習アルゴリズムが有用な代替手段となり得ます。例えば、野生動物用カメラから得られた、ラベルのない写真の大規模なコレクションがあるとします。 

各画像に何が写っているかを示すラベルはないものの、データを整理したり理解したりしたい場合があります。教師なし学習モデルなら、正確なラベルが分からなくても、これらの画像を分析して類似したものをグループ化し、見た目が似ている動物をクラスターごとに分類することができます。

コンピュータビジョンにおける教師なし学習の仕組み

では、教師なし機械学習はどのように機能するのでしょうか?この手法では、正解から学習するのではなく、モデルがデータ内のパターンや構造を自ら見つけ出すことで学習します。ラベル付けされた例に依存することなく、データ全体にわたる類似点や相違点を探し出すのです。

一般的なユースケースとして、異常検知が挙げられます。これは、モデルが正常なデータのパターンを学習し、そこから逸脱するものを特定するものです。 異常検知や外れ値検出は、産業分野において最も影響力の大きい応用例の一つです。例としては、製造ラインでの不良品の発見、放射線科医による再検討が必要な異常な医療画像のフラグ付け、監視カメラ映像における不審な行動の検知などが挙げられます。欠陥や異常は稀で多様であるため、あらゆるケースにラベルを付けることは現実的ではなく、そのため教師なし学習アプローチが適しています。

これを支援するために、クラスタリングや次元削減といった手法がよく用いられます。通常、これらの手法は生画像そのものではなく、画像から抽出された特徴量に対して適用されます。k-meansクラスタリングのようなクラスタリング手法は、共通するパターンに基づいて類似した画像をグループ化します。一方、主成分分析(PCA)などの次元削減手法は、最も重要な特徴量に焦点を当てることでデータを簡素化します。 

これにより、モデルは大規模で複雑なデータセットの中から、意味のあるパターンや構造を容易に特定できるようになります。教師なし学習の主な利点は、ラベルのないデータでも効果的に機能し、一見して明らかではないパターンを明らかにできることです。しかし、教師あり学習と比較すると、評価が難しく、最終的な出力に対する制御も限定的です。

コンピュータビジョンにおける自己教師あり学習と半教師あり学習

教師あり学習と教師なし学習について学んでいく中で、この2つの間には中間的な手法があるのかと疑問に思うかもしれません。興味深いことに、自己教師あり学習と半教師あり学習は、教師あり学習と教師なし学習の間のギャップを埋める役割を果たしています。

これらの手法により、モデルはラベルのないデータからより効果的に学習できるようになります。ラベル付きの実例だけに頼るのではなく、データから独自の学習タスクを生成するか、少量のラベル付きデータセットと大量のラベルなしデータセットを組み合わせるのです。

自己教師付き学習では、モデルはデータ自体から生成された課題を解くことで学習します。例えば、一部が欠落した画像を与えられ、その空白を埋めるべきものを予測するよう学習したり、同じ物体の異なる角度からの画像を認識するよう学習したりすることがあります。これにより、モデルは手動によるラベル付けを必要とせずに、有用な特徴を学習することができます。

一方、半教師あり学習では、少量のラベル付きデータと大量のラベルなしデータを組み合わせて使用し、性能を向上させます。場合によっては、モデルがラベルなしデータに対してラベルを生成し、それを利用して学習を継続することもあります。

これらの手法の主な利点は、作成に多額の費用と時間を要することが多い大規模なラベル付きデータセットの必要性を低減できる点にある。しかし、完全教師あり学習の手法に比べると、設計や評価がより複雑になる場合がある。

教師あり学習と教師なし学習の主な違い

教師あり学習と教師なし学習の違いは、モデルがどのように学習するか、そして何を目指しているかにある。教師あり学習は、特定のタスクを学習するためにラベル付きデータと明確な指針に依存するのに対し、教師なし学習はあらかじめ定義された答えなしで行われ、データ内のパターンや構造を発見することに重点を置く。

例えば、交通監視システムでは、教師あり学習モデルをラベル付き画像を用いて学習させることで、detect 、歩行者、または信号機をdetect することができます。一方、教師なし学習モデルは、何を探すべきかを明示的に指示されなくても、大量の映像データを分析して、類似した交通パターンをグループ分けしたり、予期せぬ渋滞や異常な動きといった不審な事象を特定したりすることができます。

コンピュータビジョンにおいて教師あり学習をいつ使用すべきか

教師あり学習は、目的が明確に定義されており、モデルが入力データを正確な出力にマッピングする必要があるコンピュータビジョンタスクにおいて、最適な選択肢です。特に、信頼性の高いラベル付きデータセットがあり、一貫性があり予測可能な結果が必要な場合に、その威力を発揮します。

図3. 教師あり学習に基づくコンピュータビジョンタスク(出典

これは、モデルが既知のカテゴリを区別したり、特定の結果を予測したりする必要がある問題で一般的に用いられます。パターンを探索するのではなく、ラベル付きデータから正確な関係を学習することに重点が置かれるため、モデルを望ましい結果へと導きやすくなります。

もう一つの大きな利点は、制御のしやすさです。教師あり学習では、明確な指標を用いて性能を測定し、モデルを微調整し、デプロイ時の安定した動作を確保することが容易です。そのため、長期にわたる一貫性と信頼性が求められるシステムに最適です。

しかし、これには代償が伴います。このモデルは、ラベル付きデータの質と規模に大きく依存しており、そのようなデータの収集やアノテーションには時間がかかる場合があります。

教師ありコンピュータビジョンの実例

Ultralytics YOLO のようなビジョンAIモデルは、教師あり学習を用いて、特にリアルタイムアプリケーションにおいて、物体検出などのタスクを高い精度で実行します。以下に、教師あり学習が大きな効果を発揮する、実世界における代表的なビジョン活用事例をいくつか紹介します:

  • 医療および医療用画像診断:医師は、X線やMRIなどのラベル付き画像データを用いて学習させたコンピュータビジョンシステムを活用できます。このシステムでは、分類器を用いて腫瘍や骨折などの病状を特定し、より迅速かつ正確な診断を支援します。
  • 産業用品質検査:製造現場において、ラベル付きデータを用いて学習させたビジョンシステムは、形状、表面欠陥、質感、サイズなど、品質に関連するさまざまな特徴を分析することで製品の検査を行うことができます。合格品と不良品の両方の事例から学習することで、これらのシステムは一貫して欠陥を特定し、生産基準を維持することができます。
  • 自動運転:自動運転システムはレーン、車両、歩行者、交通標識を認識するために、ラベル付けされた走行データを用いて学習させたモデルに依存しており、これにより車両がリアルタイムで安全に走行できるよう支援しています。
  • 小売およびレジシステム:店舗では、ラベル付けされた商品画像を用いて学習させたモデルを活用し、棚やレジでの商品識別を行うことで、自動精算やより効率的な在庫管理を実現しています。また、これらのシステムは、他のデータと組み合わせることで顧客セグメンテーションなどの業務を支援し、企業が購買パターンをより深く理解するのに役立ちます。
  • 農業および作物のモニタリング:農家は、ラベル付けされた画像を用いて学習させたモデルを活用し、classify detect classify を行うことができます。例えば、健全なジャガイモと被害を受けたジャガイモを識別・計数することで、品質管理を向上させ、損失を削減することが可能です。
図4.YOLO を用いた健全なジャガイモと不良なジャガイモYOLO detect 計数

教師なし学習は、コンピュータビジョンにおけるどのような問題を解決できるか

教師なし学習は、ラベル付きデータが十分にない場合や、データに明確な正解がない場合に有用です。こうした状況では、正確な予測を行うことではなく、データに含まれるパターンや構造を理解することが目的となります。

これは、ラベルのないデータセットを初めて探索する際によく用いられます。モデルに何を探すべきかを指示するのではなく、モデル自身に類似点を特定させたり、関連する画像をグループ化させたり、あるいは異常なパターンを強調させたりするのです。

大量の画像データにおいて、教師なし学習の手法を用いることで、類似した画像をまとめて整理したり、さらなる検討が必要な外れ値を特定したりすることができます。そのため、データサイエンスプロジェクトにおいて有用な出発点となります。

GAN、変分オートエンコーダー、拡散モデルなどの生成モデルは、画像の基礎となる分布を学習し、まったく新しい画像を生成します。これらのモデルは、画像合成、インペインティング、超解像、スタイル転移などのアプリケーションを支えており、今日の生成AIシステムの基盤となっています。

教師なしセグメンテーションでは、一部のアルゴリズムがラベル付きマスクに依存することなく、ピクセルや領域を首尾一貫したセグメントにグループ化します。これは、アノテーションに多大なコストがかかる場合や、あらかじめ定義されたカテゴリとの照合ではなく、構造の発見を目的とする場合に有用です。

教師なし学習は、ラベル付けに時間がかかりすぎる、あるいは現実的ではない大規模なデータセットを扱う際にも有効です。そのような場合、教師あり学習用のラベル付きデータに頼ることなく、データから知見を得ることができます。 

また、生成AI(画像、テキスト、音声などの新しいデータを生成するモデル)や表現学習(生データから有用な特徴やパターンを学習するモデル)といった分野でも広く用いられており、これらのモデルは大量のデータから一般的な特徴を学習します。総じて、探索やパターンの発見、あるいはラベルのないデータの処理を伴う課題に取り組む場合、教師なし学習は柔軟かつ実用的なアプローチとして検討する価値があります。

コンピュータビジョンにおける教師なし学習の実例

以下は、コンピュータビジョンにおいて教師なし学習が適用されるユースケースの例です:

  • 製造現場における異常検知:モデルは正常な製品の外観を学習することができ、あらゆる欠陥のラベル付きデータがなくても、欠陥や異常を検知することができます。
  • 画像の整理と検索:写真ライブラリやECカタログなどの大規模な画像コレクションは、視覚的な類似性に基づいて自動的にグループ化できるため、データサイエンティストが大量のデータセットを整理、探索、検索しやすくなります。
  • 監視とセキュリティ:システムは、ラベル付けされた事象について明示的に学習していなくても、映像を分析して、予期せぬ動きや群衆の変化など、異常なパターンや行動を特定することができます。
  • 前処理とデータ探索:教師ありモデルを学習させる前に、生画像データを探索・整理するために、教師なし手法がよく用いられます。これにより、データ品質の向上や手作業の負担軽減につながります。 

教師あり学習と教師なし学習の実用上の制約

どちらの学習アプローチにも利点がある一方で、考慮すべきいくつかの制約もあります。コンピュータビジョンモデルを構築する際に留意すべき実用的な要素を以下に示します:

  • 教師ありモデルにおける過学習:教師あり学習では 、モデルが一般的なパターンを学習する代わりに、訓練データを過度に忠実に学習してしまうことがあります。これは、データセットが小規模である場合や、多様性に欠ける場合に頻繁に発生します。例えば、ある特定のdetect 訓練されたモデルは、わずかに異なる製品や照明条件を含む新しいデータでテストされた際に、正常に動作しなくなる可能性があります。
  • クラスタリングアルゴリズムの課題:教師なし学習では、モデルは類似したデータポイントをまとめてグループ化することができます。しかし、データにノイズが含まれていたり、一貫性がなかったり、明確な構造が欠けていたりする場合、この手法は機能しなくなることがあります。例えば、画像のグループ化タスクでは、色は似ているものの、写っている被写体が異なる画像が誤って同じグループに分類されてしまう可能性があります。
  • 適切な前処理の重要性: 学習を行う前に 、データをクリーニングし、適切に準備する必要があります。これは通常、画像処理やデータ変換をPython を使用して行われます。画像のサイズ、画質、照明条件などが異なる場合のあるコンピュータビジョン分野では、この前処理が特に重要です。適切な前処理を行わないと、モデルは意味のあるパターンではなくノイズから学習してしまい、パフォーマンスの低下を招く恐れがあります。

主なポイント

コンピュータビジョンにおいては、教師あり学習と教師なし学習の双方が重要な役割を果たしています。適切なアプローチは、データの種類(ラベル付きかラベルなしか)、解決しようとしている課題、および導入時の要件によって異なります。 

高い精度と明確な出力を目指すのであれば、教師あり機械学習の方が適している場合が多いです。データを探索したり、ラベルのないデータで作業したりする場合は、教師なし学習の方が適している場合があります。

AIについてもっと知りたいですか?コミュニティGitHubリポジトリをご覧ください。ロボティクスにおけるAI農業におけるコンピュータビジョンについては、ソリューションページをご覧ください。ライセンスオプションを確認して、今日からコンピュータビジョンを使った開発を始めましょう。 

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。