ガイド

ノイズ除去のための自己教師あり学習：ステップバイステップの解説

ノイズ除去のための自己教師あり学習の仕組み、画像にノイズが乗る理由、そして鮮明な視覚情報を復元するための主要な手法やステップを解説します。

ABAbirami Vina

5 min readDecember 2, 2025

カメラは、私たちが目にする世界を常にそのまま捉えられるわけではありません。低照度で撮影されたポートレートや、高速で移動する車の写真は、粒状感が出たり、ぼやけたり、歪んだりすることがあります。

低速なセンサー、暗い環境、そして動きによって、エッジをぼかし重要な詳細を隠す微細なノイズが発生することがあります。この鮮明さが失われると、高度なAIや機械学習システムであっても画像の内容を理解するのに苦労することがあります。これは、多くのスマートシステムが良好に機能するために、それらの微細な詳細情報に依存しているためです。

例えば、コンピュータビジョンは、マシンが画像やビデオを解釈できるようにする人工知能の分野です。しかし、これを正確に行うためには、ビジョンAIモデルが学習するためのクリーンで高品質な視覚データが必要です。

具体的には、Ultralytics YOLO11や近日公開予定のUltralytics YOLO26のようなモデルは、物体検出、インスタンスセグメンテーション、姿勢推定といったタスクをサポートしており、多様なユースケースに合わせてカスタムトレーニングが可能です。これらのタスクは、エッジ、テクスチャ、色、微細な構造的詳細といった鮮明な視覚的手がかりに依存しています。

ノイズがこれらの特徴を隠してしまうと、モデルはより弱い学習信号しか受け取れなくなり、正確なパターンを学習することが困難になります。その結果、わずかなノイズであっても、実際のアプリケーションでのパフォーマンスを低下させる可能性があります。

以前、私たちは自己教師あり学習がどのように画像をデノイズするかについて考察しました。本記事では、自己教師ありデノイジング技術がどのように機能し、どのようにして意味のある視覚情報を復元するのに役立つのかをより深く掘り下げていきます。それでは始めましょう！

Link to this section現実世界の画像における一般的なノイズの種類#

画像デノイジングにおいて自己教師あり学習がどのように使用されるかを探る前に、まず、そもそもなぜ画像にノイズが発生するのかを再確認しましょう。

現実世界の物体やシーンの画像が完璧であることは稀です。低照度、センサー品質の限界、高速な動きにより、画像全体の各ピクセルにランダムな障害が混入することがあります。ノイズとして知られるこれらのピクセルレベルの混乱は、全体的な鮮明さを低下させ、重要な詳細を見えにくくします。

ノイズがエッジやテクスチャ、微妙なパターンを隠すと、コンピュータビジョンシステムは物体を認識したり、シーンを正確に解釈したりするのに苦労します。条件が異なれば生じるノイズの種類も異なり、それぞれが独自の方法で画像に影響を与えます。

ノイズが画像内の不確実性をどのように増加させるか

図1：ノイズが画像内の不確実性をどのように増大させ得るかの一例。（ソース）

画像に見られる最も一般的なノイズの種類をいくつか挙げます：

ガウスノイズ： このタイプのノイズは、電子センサーの干渉や熱変動によって引き起こされる、柔らかくランダムな粒状感として現れます。これはガウス（正規）分布に従い、小さなピクセルの変動が微細な詳細をぼかし、全体のシャープさを低下させます。
ポアソンノイズ： ショットノイズとも呼ばれるこのタイプのノイズは、低照度条件下や短い露出時間で発生します。その分散は輝度とともに増加しますが、捕捉される光子が少なくなるため、暗い領域でノイズがより目立ちやすくなり、信号対雑音比（S/N比）が低下します。
ソルト・アンド・ペッパーノイズ： このタイプのノイズは、鋭い黒や白のピクセルのスパイクとして現れます。通常、伝送エラー、ビットの破損、あるいは故障したカメラセンサーによって引き起こされ、ピクセル値が欠落したり破損したりすることがよくあります。
スペックルノイズ： このタイプのノイズは、粒状のスポットのようなパターンとして現れ、医療、レーダー、超音波画像診断で一般的です。これは信号の干渉や散乱によって引き起こされ、コントラストを低下させ、エッジの検出を困難にします。

Link to this section自己教師ありデノイジングはいつ使用すべきか？#

では、自己教師ありデノイジングの何が特別なのでしょうか？それは、クリーンな正解（グラウンドトゥルース）画像が存在しない、あるいは撮影が非常に困難な状況で威力を発揮します。

これは、低照度写真、高ISO画像、医療および科学的画像、あるいはノイズが不可避で完璧な参照データの収集が非現実的なあらゆる環境でよく発生します。クリーンな例を必要とする代わりに、モデルは手元にあるノイズの多い画像から直接学習するため、カメラやセンサーの特定のノイズパターンに適応させることができます。

自己教師ありデノイジングは、ダウンストリームのコンピュータビジョンタスクのパフォーマンスを向上させたいが、データセットに一貫性のない画像やノイズの多い画像が含まれている場合にも最適な選択肢です。エッジ、テクスチャ、構造をより鮮明に復元することで、これらの手法はYOLOのようなモデルがより確実に物体を検出、セグメント化、理解する助けとなります。要するに、ノイズの多いデータを扱っており、クリーンなトレーニング画像が利用できない場合、自己教師ありデノイジングは最も実用的で効果的な解決策となることがよくあります。

Link to this section自己教師ありデノイジングを推進する主要な技術#

以前にも見たように、自己教師ありデノイジングは深層学習ベースのAIアプローチであり、クリーンなラベルに頼ることなく、ノイズの多い画像から直接学習することを可能にします。これは自己教師あり学習の原則に基づいており、モデルがデータ自体から独自の学習信号を生成します。

言い換えれば、モデルはノイズの多い画像を、入力と学習信号源の両方として使用することで、自己学習できるということです。同じ画像の異なる破損バージョンを比較したり、マスクされたピクセルを予測したりすることで、モデルはどのパターンが真の構造を表し、どれが単なるノイズであるかを学習します。反復的な最適化とパターン認識を通じて、ネットワークは意味のある画像コンテンツとランダムな変動を区別する能力を徐々に向上させます。

RAW画像とノイズ除去済み画像

図2：生の画像とデノイズされた画像。（ソース)

これは、安定した画像構造をランダムなノイズから分離するようにモデルを導く、特定の学習戦略によって可能になります。次に、このプロセスを効率化する主要な技術とアルゴリズム、そして各アプローチがどのようにしてモデルによるクリーンで信頼性の高い画像の再構成を支援するのかを詳しく見ていきましょう。

Link to this sectionペア画像デノイジング手法#

初期の多くの自己教師あり学習によるデノイジング手法は、同じ画像の2つのノイズの多いバージョンを比較することで機能していました。ノイズは画像が撮影または破損されるたびにランダムに変化しますが、実際の構造は同じままであるため、これらの違いをモデルの学習信号として使用できます。

これらのアプローチは、トレーニング中にノイズの多い画像のペアを使用または生成することに依存しているため、一般的にペア画像デノイジング手法と呼ばれます。例えば、Noise2Noiseアプローチ（Jaakko Lehtinenとそのチームによって提案）は、同じシーンの個別にノイズが発生した2つの画像を使用してモデルをトレーニングします。2つのバージョン間でノイズパターンが異なることを前提として、モデルは実際の基礎となる画像を表す一貫した詳細を識別するように学習します。

Noise2Noiseの仕組み

図3：Noise2Noiseの仕組み（ソース)

時間の経過とともに、これはネットワークがクリーンな参照画像を決して見ることなく、ランダムなノイズを抑制し、実際の構造を保持するように学習させます。夜間の暗い通りの写真を2枚撮るという単純なシナリオを考えてみてください。

各画像には同じ建物、照明、影が含まれていますが、粒状のノイズは異なる場所に現れます。トレーニング中にこれら2枚のノイズの多い写真を比較することで、自己教師ありモデルはどの視覚パターンが安定しており、どれがノイズによるものかを学習し、最終的にクリーンな画像を再構成する能力を向上させることができます。

Link to this sectionブラインドスポットベースの自己教師あり学習によるデノイジング手法#

ペア手法が同じ画像の異なる破損バージョンを比較することに依存しているのに対し、ブラインドスポット手法は異なるアプローチをとります。これらは、特定のピクセルを隠すことで、ネットワークがその破損した値を見ることができないようにし、単一のノイズの多い画像からモデルに学習させます。

モデルは、周囲のコンテキストのみを使用して隠されたピクセルを予測しなければなりません。核となる考え方は、ノイズはランダムですが、画像の基礎となる構造はそうではないということです。

モデルがピクセルのノイズの多い値をコピーすることを防ぐことで、ブラインドスポット手法は、近くのエッジ、テクスチャ、色勾配といった安定した画像パターンに基づいて、そのピクセルがどのようなものであるべきかを推論するように促します。Noise2Void（Alexander Krullとそのチームによって導入）やNoise2Self（Joshua BatsonとLoïc Royerによって開発）などの技術は、個々のピクセルや小さな近傍をマスクし、それを再構成するようにモデルをトレーニングすることで、この原則を実装しています。

Noise2SameやPN2Vを含むより高度なアプローチは、複数のマスクされたバージョン間で一貫した予測を強制したり、ノイズ分布を明示的にモデル化して不確実性を推定したりすることで、堅牢性を向上させています。これらの手法は単一のノイズ画像のみを必要とするため、クリーンな画像やペア画像の取得が非実用的または不可能な分野、例えば顕微鏡画像、天文学、生物医学画像、あるいは低照度写真などで特に有用です。

Link to this sectionTransformer対応のデノイジング手法#

ほとんどのペア手法およびブラインドスポット手法による自己教師ありデノイジングは、畳み込みニューラルネットワーク（CNN）やデノイジングネットワークに依存しています。CNNはエッジ、テクスチャ、小さな詳細といった局所的なパターンに焦点を当てるため、これらのアプローチにとって素晴らしい選択肢です。

U-Netのようなアーキテクチャは、微細な特徴とマルチスケールの情報を組み合わせるため、広く使用されています。しかし、CNNは主に限定された近傍内で動作するため、画像内のより広い範囲にまたがる重要な関係を見逃す可能性があります。

この制限に対処するために、Transformer対応の最先端のデノイジング手法が導入されました。提案された手法は、近くのピクセルのみを見るのではなく、アテンションメカニズムを使用して、画像の異なる部分がどのように関連しているかを理解します。

一部のモデルは完全なグローバルアテンションを使用し、他のモデルは計算量を削減するためにウィンドウベースや階層的なアテンションを使用しますが、一般的にそれらはCNNだけでは捉えられない長期的な構造を捉えるように設計されています。このより広い視野は、画像全体からの情報を必要とする繰り返しのテクスチャ、滑らかな表面、あるいは大きなオブジェクトをモデルが復元するのに役立ちます。

Link to this sectionその他の画像デノイジング手法#

自己教師あり技術以外にも、ノイズの多い画像をきれいにする方法はいくつかあります。バイラテラルフィルタリング、ウェーブレットデノイジング、非局所平均法といった従来の手法は、重要な詳細を保持しようとしながらノイズを滑らかにするために、単純な数学的規則を使用します。

一方、クリーンな画像とノイズの多い画像のペアから学習する教師ありモデルや、よりシャープでリアルな結果を生成する敵対的生成ネットワーク（GAN）など、深層学習のアプローチも存在します。しかし、これらの手法は通常、トレーニングのためにより良い画像品質を必要とします。

Link to this section自己教師あり画像デノイジングがどのように機能するかのステップバイステップ解説#

いくつかの異なる手法を見てきましたが、それぞれのアーキテクチャが異なるため、すべてが完全に異なる方法で機能しているのではないかと思われるかもしれません。しかし、それらはすべて、データ準備から始まりモデル評価で終わる、同様のパイプラインに従っています。

次に、自己教師あり画像デノイジングの全体的なプロセスがどのように段階的に進むのかを詳しく見ていきましょう。

Link to this sectionステップ1：前処理と正規化#

モデルがノイズの多い画像から学習を開始する前に、最初のステップはすべての画像が一貫していることを確認することです。実際の写真は大きく異なる可能性があります。

一部の画像は明るすぎ、他は暗すぎ、色がわずかにずれているものもあるかもしれません。これらの変動を直接モデルに入力すると、ノイズがどのように見えるかを学習することに集中することが難しくなります。

これに対処するため、各画像は正規化と基本的な前処理を受けます。これには、ピクセル値を標準範囲にスケーリングすること、強度の変動を補正すること、あるいはクロッピングやリサイズが含まれる場合があります。重要なのは、モデルが安定した比較可能な入力として使用できるクリーンなデータを受け取ることです。

Link to this sectionステップ2：自己教師あり学習信号の作成#

画像が正規化されたら、次のステップは、モデルがクリーンな画像を一度も見ることなく学習できるようにするトレーニング信号を作成することです。自己教師ありデノイジング手法は、受け取ったノイズの多いピクセル値を単純にコピーできないようにすることで、これを行います。

代わりに、予測不可能なノイズではなく、安定した構造を含む画像の周囲のコンテキストにモデルが依存せざるを得ない状況を作り出します。手法によって達成方法は多少異なりますが、核となる考え方は同じです。

一部のアプローチでは、モデルが隣接するピクセルから推論する必要があるように特定のピクセルを一時的に隠したりマスクしたりし、他のアプローチでは、入力とターゲットが独立したノイズを含むように、同じノイズ画像の別途破損したバージョンを生成します。どちらの場合も、ターゲット画像は意味のある構造情報を保持していますが、ネットワークが予測すべきピクセルの元のノイズの多い値にアクセスすることはできません。

ノイズはランダムに変化する一方で、基礎となる画像は一貫しているため、この設定は自然に、モデルが真の構造がどのように見えるかを学習し、あるバージョンから別のバージョンへと変化するノイズを無視するように促します。

Link to this sectionステップ3：画像構造を復元するためのデノイジングの学習#

学習信号が整うと、モデルはトレーニングを通じて、意味のある画像構造をノイズから分離する方法を学習し始めます。マスクされたピクセルや再破損されたピクセルを予測するたびに、その場所に元々あったノイズの多い値ではなく、周囲のコンテキストに依存しなければなりません。

多くの反復またはエポックを経て、これによりネットワークは、エッジ、テクスチャ、滑らかな表面など、画像全体で安定しているパターンの種類を認識するように学習します。また、ノイズの特徴であるランダムな変動を無視することも学びます。

例えば、表面が非常に粒状に見える低照度写真を考えてみてください。ノイズはピクセルごとに変化しますが、基礎となる表面は依然として滑らかです。このような領域の隠れたピクセルを繰り返し推論することで、モデルはノイズの下にある安定したパターンを識別し、それをよりきれいに再構成する能力を徐々に向上させます。

モデルのトレーニングプロセスを通じて、ネットワークは画像の構造の内部表現を学習します。これにより、入力が激しく破損している場合でも、モデルは一貫した詳細を復元できるようになります。

Link to this sectionステップ4：検証とノイズ低減の結果#

モデルが隠されたピクセルや再破損されたピクセルを予測することを学習した後、最終ステップは、全画像に対してどれだけうまく機能するかを評価することです。テスト中、モデルはノイズの多い画像全体を受け取り、画像構造について学んだことに基づいて完全にデノイズされたバージョンを生成します。このプロセスがどれほど効果的であるかを測定するために、出力をクリーンな参照画像や標準的なベンチマークデータセットと比較します。

一般的に使用される2つの指標は、再構成がクリーンなグラウンドトゥルースにどれだけ近いかを測定するPSNR（ピーク信号対雑音比）と、エッジやテクスチャなどの重要な特徴がどれだけ保持されているかを評価するSSIM（構造的類似度指数）です。一般的に、スコアが高いほど、より正確で視覚的に信頼性の高いデノイジングであることを示します。

Link to this sectionトレーニングとベンチマークに使用される画像データセット#

IEEEジャーナルやCVF会議（CVPR、ICCV、ECCVなど）、およびarXivで広く配布されている自己教師ありデノイジングの研究は、深層学習手法のモデルパフォーマンスを、制御された条件および実用的な条件の両方で評価するために、合成データセットと現実世界のデータセットの組み合わせに依存することがよくあります。一方で、合成データセットはクリーンな画像から始まり、人工的なノイズを追加することで、PSNRやSSIMのような指標を使用して手法を簡単に比較できるようにします。

ベンチマークのために合成ノイズが追加されて一般的に使用される人気のあるデータセットをいくつか挙げます：

Kodak24: このデータセットは、デノイジング結果を視覚的に比較するために一般的に使用される高品質な自然シーンの写真を提供します。
DIV2K: この高解像度データセットには、テクスチャの忠実度と全体的な復元品質を評価するために使用される、多様で詳細な画像が含まれています。

一方で、現実世界のノイズの多いデータセットには、低照度、高ISO、またはその他の困難な条件下でカメラセンサーから直接キャプチャされた画像が含まれています。これらのデータセットは、簡単にシミュレートできない複雑な非ガウスノイズをモデルが処理できるかどうかをテストします。

人気のある現実世界のノイズデータセットをいくつか挙げます：

SIDD: このデータセットは、さまざまな照明環境下でスマートフォンセンサーを使用してキャプチャされた、実際のノイズとクリーンな画像のペアを提供します。
DND: これには、コンシューマーカメラに見られるリアルなセンサーノイズパターンをキャプチャした高ISO写真が含まれています。

DNDデータセットの例

図4：DNDデータセットからの例。（ソース)

Link to this section自己教師ありデノイジングモデルをトレーニングする際に考慮すべき要因#

深層学習ベースの自己教師ありデノイジングモデルをトレーニングする場合に考慮すべき要因と制限をいくつか挙げます：

ノイズ分布を一致させる： トレーニングに使用されるノイズの多い画像は、モデルが実際の使用で遭遇するのと同じノイズを反映している必要があります。不一致なノイズは汎化性能の低下につながります。
トレーニングデータの多様性を確保する： バリエーションが限られていると、複雑なテクスチャにおいて過学習や過剰な平滑化を引き起こす可能性があります。
ノイズタイプの制限を認識する： 自己教師あり手法は、構造化された、相関のある、あるいは非ランダムなノイズに対して、より苦戦します。
デバイスやセンサー間でテストする： デノイジングのパフォーマンスは、カメラやイメージングシステム間で大きく異なる可能性があります。

Link to this section重要なポイント#

自己教師ありデノイジングは、AI愛好家に、すでに持っているノイズの多いデータのみを使用して画像をきれいにする実用的な方法を提供します。ノイズの下にある真の構造を認識するように学習することで、これらの手法は重要な視覚的詳細を復元できます。デノイジング技術が向上し続けるにつれて、日常的な設定において、幅広いコンピュータビジョンのタスクがより信頼性の高いものになるでしょう。

成長を続ける私たちのコミュニティに参加しましょう！AIについての詳細を学ぶには、私たちのGitHubリポジトリをチェックしてください。コンピュータビジョンソリューションの構築を検討している場合は、ライセンスオプションをご覧ください。小売におけるコンピュータビジョンの利点を探り、製造におけるAIがいかに変化をもたらしているかをご確認ください！

Explore solutions

AIの未来を共に築き上げましょう！

機械学習の未来とともに旅を始めましょう

ライセンスをリクエストする使ってみる

ノイズ除去のための自己教師あり学習：ステップバイステップの解説

Link to this section現実世界の画像における一般的なノイズの種類#

Link to this section自己教師ありデノイジングはいつ使用すべきか？#

Link to this section自己教師ありデノイジングを推進する主要な技術#

Link to this sectionペア画像デノイジング手法#

Link to this sectionブラインドスポットベースの自己教師あり学習によるデノイジング手法#

Link to this sectionTransformer対応のデノイジング手法#

Link to this sectionその他の画像デノイジング手法#

Link to this section自己教師あり画像デノイジングがどのように機能するかのステップバイステップ解説#

Link to this sectionステップ1：前処理と正規化#

Link to this sectionステップ2：自己教師あり学習信号の作成#

Link to this sectionステップ3：画像構造を復元するためのデノイジングの学習#

Link to this sectionステップ4：検証とノイズ低減の結果#

Link to this sectionトレーニングとベンチマークに使用される画像データセット#

Link to this section自己教師ありデノイジングモデルをトレーニングする際に考慮すべき要因#

Link to this section重要なポイント#

Explore solutions

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

AIの未来を共に築き上げましょう！