コンピュータビジョンにおける教師あり学習と教師なし学習の違い、およびデータやプロジェクトの目標に合わせて適切なアプローチを選択する方法について学びましょう。
コンピュータビジョンにおける教師あり学習と教師なし学習の違い、およびデータやプロジェクトの目標に合わせて適切なアプローチを選択する方法について学びましょう。
人工知能(AI)は、機械に人間の知能に似た学習や推論の方法を教えるという中核的な概念に基づいて構築されています。人間が直接的な指導や、パターンや経験の観察といったさまざまな方法を通じて学ぶのと同様に、AIや機械学習システムも、これらと同じアプローチに従うように設計されています。
具体的には、機械学習アルゴリズムの場合、システムは個々のタスクごとに明示的にプログラムされるのではなく、データから学習するように訓練されます。機械学習モデルは、固定されたルールに依存するのではなく、データ内のパターンを識別し、そのパターンに基づいて予測や判断を行います。
例えば、コンピュータビジョンは、AIや機械学習の一分野であり、システムが画像や動画などの視覚情報を解釈・理解できるようにすることに焦点を当てています。物体の認識から、大規模なデータセットに潜むパターンの特定に至るまで、これらのシステムは、学習のためのトレーニング方法に大きく依存しています。
利用可能なデータの種類や解決すべき課題に応じて、これらのシステムを学習させるために様々なAI学習手法が用いられます。
一部のコンピュータビジョンモデルは、ラベル付きデータから学習します。これは、各入力に正解が紐付けられていることを意味し、すべての画像やデータポイントには、それが何を表しているかをモデルに伝える事前定義されたラベルが付いています。これにより、モデルは入力と期待される出力の関係を学習し、これまで見たことのない新しいデータに対して正確な予測を行う能力を向上させることができます。
他の視覚モデルは、あらかじめ定義された答えが与えられていない「ラベルなしデータ」から学習し、データそのものの中に存在するパターンや関係性を特定することに重点を置いています。これらのアプローチは、それぞれ「教師あり学習」と「教師なし学習」として知られており、多くの最先端のコンピュータビジョンシステムの基盤となっています。
この記事では、教師あり学習と教師なし学習について、それらがコンピュータビジョンでどのように活用されているか、そして自身のビジョンAIプロジェクトに最適なアプローチをどのように選べばよいかを解説します。さっそく始めましょう!
人工知能は、傘のようなものだと考えてください。それは、通常は人間の知性を必要とするようなタスクを機械が実行できるようにする、さまざまな技術を包括する概念です。この「傘」の下では、機械学習が重要な分野であり、これによりシステムは固定されたルールだけに頼るのではなく、データから学習することが可能になります。
機械学習において、さまざまな学習手法によって、モデルがどのように学習し、時間とともに改善していくかが決まります。 教師あり学習(正解が与えられたラベル付きデータから学習する)、教師なし学習(ラベルのないデータからパターンを識別する)、強化学習(フィードバックや報酬を用いた試行錯誤を通じて学習する)、半教師あり学習(少量のラベル付きデータと大量のラベルなしデータを組み合わせる)といったアプローチは、システムが入力データを処理し、出力データを生成する方法を規定しています。

特に、コンピュータビジョンシステムは、視覚データを解釈・理解するために、こうした学習手法を用いて構築されています。教師あり学習は、モデルが明確にラベル付けされた例から学習し、正確で信頼性の高い結果を生成できるため、最も一般的に用いられている手法です。
例えば、モデルを「猫」や「犬」とラベル付けされた画像で学習させると、形状、耳、顔の構造などの特徴を学習し、分類アルゴリズムを用いてclassify 画像を正しくclassify できるようになります。一方、コンピュータビジョンでは、データのパターンを発見したり、ラベル付きデータが限られている場合の性能を向上させたりするために、教師なし学習や半教師あり学習もよく用いられます。
教師あり学習アルゴリズムは、教室の授業に例えることができます。教室では、教師が例題と正解を示し、生徒が何が正しく何が間違っているかを学べるようにします。機械学習においても、モデルはラベル付きデータを用いて同様の方法で学習します。ラベル付きデータとは、各入力データに既知の出力結果が対応付けられているデータのことです。
例えば、野球の試合の分析を自動化するコンピュータビジョンシステムの開発に取り組んでいるとしましょう。Ultralytics のようなモデルを、ボール、バット、選手といったオブジェクトにラベルが付けられた画像や動画フレームを使って学習させることができます。
各オブジェクトには位置情報とカテゴリがタグ付けされ、モデルが何を検出すべきかを学習できるようになります。時間の経過とともに、モデルは新しい映像内でこれらのオブジェクトをdetect 特定できるようになり、フレームをまたいだボールの追跡や選手の検出といったユースケースに対応できるようになります。

物体検出以外にも、教師あり学習は、精度と一貫性が重要とされる画像分類、インスタンスセグメンテーション、姿勢推定など、幅広いコンピュータビジョンタスクで広く活用されています。これらの各タスクにおいて、モデルはラベル付きデータから学習し、特定のパターンを識別して、新しい入力に対して信頼性の高い予測を行います。
これらのモデルは通常、ニューラルネットワークを用いてデータから直接パターンを学習する機械学習の一種であるディープラーニングを用いて構築されます。ニューラルネットワークは、人間の脳の働きを大まかに模倣した方法で情報を処理するように設計されており、これによりモデルは大規模なデータセットから複雑な視覚的特徴を学習することが可能になります。
従来のコンピュータビジョン手法では、手動で設計された特徴量と、サポートベクターマシン(SVM:カテゴリ間の最適な境界線を見出すclassify モデル)や決定木(データを枝に分割することで判断を下すモデル)といったアルゴリズムを組み合わせることが多かった。
対照的に、今日のコンピュータビジョンモデルはディープラーニングを用いてデータからこれらの特徴を自動的に学習するため、大規模かつ非常に詳細な視覚的タスクをより効果的に処理できるようになっている。
コンピュータビジョン分野では教師あり学習が主流ですが、ラベル付きデータが入手できない、あるいは作成に多大なコストや時間がかかるようなビジョンアプリケーションも存在します。
このような場合、教師なし学習アルゴリズムが有用な代替手段となり得ます。例えば、野生動物用カメラから得られた、ラベルのない写真の大規模なコレクションがあるとします。
各画像に何が写っているかを示すラベルはないものの、データを整理したり理解したりしたい場合があります。教師なし学習モデルなら、正確なラベルが分からなくても、これらの画像を分析して類似したものをグループ化し、見た目が似ている動物をクラスターごとに分類することができます。
では、教師なし機械学習はどのように機能するのでしょうか?この手法では、正解から学習するのではなく、モデルがデータ内のパターンや構造を自ら見つけ出すことで学習します。ラベル付けされた例に依存することなく、データ全体にわたる類似点や相違点を探し出すのです。
一般的なユースケースとして、異常検知が挙げられます。これは、モデルが正常なデータのパターンを学習し、そこから逸脱するものを特定するものです。 異常検知や外れ値検出は、産業分野において最も影響力の大きい応用例の一つです。例としては、製造ラインでの不良品の発見、放射線科医による再検討が必要な異常な医療画像のフラグ付け、監視カメラ映像における不審な行動の検知などが挙げられます。欠陥や異常は稀で多様であるため、あらゆるケースにラベルを付けることは現実的ではなく、そのため教師なし学習アプローチが適しています。
これを支援するために、クラスタリングや次元削減といった手法がよく用いられます。通常、これらの手法は生画像そのものではなく、画像から抽出された特徴量に対して適用されます。k-meansクラスタリングのようなクラスタリング手法は、共通するパターンに基づいて類似した画像をグループ化します。一方、主成分分析(PCA)などの次元削減手法は、最も重要な特徴量に焦点を当てることでデータを簡素化します。
これにより、モデルは大規模で複雑なデータセットの中から、意味のあるパターンや構造を容易に特定できるようになります。教師なし学習の主な利点は、ラベルのないデータでも効果的に機能し、一見して明らかではないパターンを明らかにできることです。しかし、教師あり学習と比較すると、評価が難しく、最終的な出力に対する制御も限定的です。
教師あり学習と教師なし学習について学んでいく中で、この2つの間には中間的な手法があるのかと疑問に思うかもしれません。興味深いことに、自己教師あり学習と半教師あり学習は、教師あり学習と教師なし学習の間のギャップを埋める役割を果たしています。
これらの手法により、モデルはラベルのないデータからより効果的に学習できるようになります。ラベル付きの実例だけに頼るのではなく、データから独自の学習タスクを生成するか、少量のラベル付きデータセットと大量のラベルなしデータセットを組み合わせるのです。
自己教師付き学習では、モデルはデータ自体から生成された課題を解くことで学習します。例えば、一部が欠落した画像を与えられ、その空白を埋めるべきものを予測するよう学習したり、同じ物体の異なる角度からの画像を認識するよう学習したりすることがあります。これにより、モデルは手動によるラベル付けを必要とせずに、有用な特徴を学習することができます。
一方、半教師あり学習では、少量のラベル付きデータと大量のラベルなしデータを組み合わせて使用し、性能を向上させます。場合によっては、モデルがラベルなしデータに対してラベルを生成し、それを利用して学習を継続することもあります。
これらの手法の主な利点は、作成に多額の費用と時間を要することが多い大規模なラベル付きデータセットの必要性を低減できる点にある。しかし、完全教師あり学習の手法に比べると、設計や評価がより複雑になる場合がある。
教師あり学習と教師なし学習の違いは、モデルがどのように学習するか、そして何を目指しているかにある。教師あり学習は、特定のタスクを学習するためにラベル付きデータと明確な指針に依存するのに対し、教師なし学習はあらかじめ定義された答えなしで行われ、データ内のパターンや構造を発見することに重点を置く。
例えば、交通監視システムでは、教師あり学習モデルをラベル付き画像を用いて学習させることで、detect 、歩行者、または信号機をdetect することができます。一方、教師なし学習モデルは、何を探すべきかを明示的に指示されなくても、大量の映像データを分析して、類似した交通パターンをグループ分けしたり、予期せぬ渋滞や異常な動きといった不審な事象を特定したりすることができます。
教師あり学習は、目的が明確に定義されており、モデルが入力データを正確な出力にマッピングする必要があるコンピュータビジョンタスクにおいて、最適な選択肢です。特に、信頼性の高いラベル付きデータセットがあり、一貫性があり予測可能な結果が必要な場合に、その威力を発揮します。

これは、モデルが既知のカテゴリを区別したり、特定の結果を予測したりする必要がある問題で一般的に用いられます。パターンを探索するのではなく、ラベル付きデータから正確な関係を学習することに重点が置かれるため、モデルを望ましい結果へと導きやすくなります。
もう一つの大きな利点は、制御のしやすさです。教師あり学習では、明確な指標を用いて性能を測定し、モデルを微調整し、デプロイ時の安定した動作を確保することが容易です。そのため、長期にわたる一貫性と信頼性が求められるシステムに最適です。
しかし、これには代償が伴います。このモデルは、ラベル付きデータの質と規模に大きく依存しており、そのようなデータの収集やアノテーションには時間がかかる場合があります。
Ultralytics YOLO のようなビジョンAIモデルは、教師あり学習を用いて、特にリアルタイムアプリケーションにおいて、物体検出などのタスクを高い精度で実行します。以下に、教師あり学習が大きな効果を発揮する、実世界における代表的なビジョン活用事例をいくつか紹介します:

教師なし学習は、ラベル付きデータが十分にない場合や、データに明確な正解がない場合に有用です。こうした状況では、正確な予測を行うことではなく、データに含まれるパターンや構造を理解することが目的となります。
これは、ラベルのないデータセットを初めて探索する際によく用いられます。モデルに何を探すべきかを指示するのではなく、モデル自身に類似点を特定させたり、関連する画像をグループ化させたり、あるいは異常なパターンを強調させたりするのです。
大量の画像データにおいて、教師なし学習の手法を用いることで、類似した画像をまとめて整理したり、さらなる検討が必要な外れ値を特定したりすることができます。そのため、データサイエンスプロジェクトにおいて有用な出発点となります。
GAN、変分オートエンコーダー、拡散モデルなどの生成モデルは、画像の基礎となる分布を学習し、まったく新しい画像を生成します。これらのモデルは、画像合成、インペインティング、超解像、スタイル転移などのアプリケーションを支えており、今日の生成AIシステムの基盤となっています。
教師なしセグメンテーションでは、一部のアルゴリズムがラベル付きマスクに依存することなく、ピクセルや領域を首尾一貫したセグメントにグループ化します。これは、アノテーションに多大なコストがかかる場合や、あらかじめ定義されたカテゴリとの照合ではなく、構造の発見を目的とする場合に有用です。
教師なし学習は、ラベル付けに時間がかかりすぎる、あるいは現実的ではない大規模なデータセットを扱う際にも有効です。そのような場合、教師あり学習用のラベル付きデータに頼ることなく、データから知見を得ることができます。
また、生成AI(画像、テキスト、音声などの新しいデータを生成するモデル)や表現学習(生データから有用な特徴やパターンを学習するモデル)といった分野でも広く用いられており、これらのモデルは大量のデータから一般的な特徴を学習します。総じて、探索やパターンの発見、あるいはラベルのないデータの処理を伴う課題に取り組む場合、教師なし学習は柔軟かつ実用的なアプローチとして検討する価値があります。
以下は、コンピュータビジョンにおいて教師なし学習が適用されるユースケースの例です:
どちらの学習アプローチにも利点がある一方で、考慮すべきいくつかの制約もあります。コンピュータビジョンモデルを構築する際に留意すべき実用的な要素を以下に示します:
コンピュータビジョンにおいては、教師あり学習と教師なし学習の双方が重要な役割を果たしています。適切なアプローチは、データの種類(ラベル付きかラベルなしか)、解決しようとしている課題、および導入時の要件によって異なります。
高い精度と明確な出力を目指すのであれば、教師あり機械学習の方が適している場合が多いです。データを探索したり、ラベルのないデータで作業したりする場合は、教師なし学習の方が適している場合があります。
AIについてもっと知りたいですか?コミュニティとGitHubリポジトリをご覧ください。ロボティクスにおけるAIや農業におけるコンピュータビジョンについては、ソリューションページをご覧ください。ライセンスオプションを確認して、今日からコンピュータビジョンを使った開発を始めましょう。
未来の機械学習で、新たな一歩を踏み出しましょう。