ガイド

画像処理におけるエッジ検出の理解

画像処理におけるエッジ検出。Sobel、Canny、その他のエッジ検出アルゴリズムを学び、エッジを正確に検出し、堅牢なエッジ認識を実現します。

ABAbirami Vina

5 min readAugust 25, 2025

人間は画像を見る際、自然と物体のエッジを認識し、その曲線を追い、表面のテクスチャに気づきます。しかしコンピュータにとって、理解は個々のピクセルレベルから始まります。

デジタル画像の最小単位であるピクセルは、単一の点における色と明るさを保存します。画像全体にわたるこれらのピクセル値の変化を追跡することで、コンピュータは重要な詳細を明らかにするパターンを検出できます。

特に、画像処理ではピクセルデータを使用して重要な特徴を強調し、不要な情報を取り除きます。一般的な画像処理手法の一つがエッジ検出であり、これは明るさや色が急激に変化する点を特定することで、物体の輪郭を描き、境界をマークし、構造を追加します。

これにより、コンピュータは形状を分離し、寸法を測定し、シーンのパーツがどのように繋がっているかを解釈できるようになります。エッジ検出は、多くの場合、高度な画像解析の最初のステップとなります。

異なるエッジ検出手法による出力と元の画像

図1. オリジナルの画像と、異なるエッジ検出手法による出力を並べた例。 (出典)

この記事では、エッジ検出とは何か、その仕組み、そして実際のアプリケーションについて見ていきます。早速始めましょう！

Link to this sectionエッジ検出のコンセプト#

エッジ検出は、画像内で明るさや色が点から点へ顕著に変化する場所を探すことに焦点を当てています。変化が小さければその領域は滑らかに見え、変化が急激であれば、多くの場合、2つの異なる領域の境界を示しています。

これらのピクセル変化が発生する理由をいくつか挙げます：

表面の法線不連続性: 壁の角や箱の縁のように、2つの面がある角度で接している場合、この急激な向きの変化によって画像内に明確な境界が生まれます。
深度の不連続性: これらは物体がカメラから異なる距離にある場合に現れ、システムが物体を識別するのに役立つ目に見える分離を生み出します。
表面の色やテクスチャの変化: ある領域が隣接する領域とは異なる色やテクスチャを持つ場合に発生し、目に見える分離を作り出します。
照明の変化: 影や表面のハイライトなど、照明の変化によって生じます。表面自体が滑らかまたは連続的であっても、目に見える分離を作り出します。

画像におけるエッジの不連続性の種類

図2. 画像内の異なる種類のエッジ不連続性。 (出典)

Link to this sectionエッジ検出認識はどのように機能するのか#

エッジ検出は通常、カラー画像をグレースケール画像に変換することから始まり、各点が明るさのみを示すようにします。これにより、アルゴリズムは色ではなく、明暗の差に集中しやすくなります。

次に、特別なフィルターが画像をスキャンして、明るさが急激に変化する場所を見つけます。これらのフィルターは、勾配（グラディエント）と呼ばれる、明るさがどの程度急激に変化するかを計算します。勾配が大きいほど近接点間の差が大きいことを示し、それがしばしばエッジの信号となります。

その後、アルゴリズムは画像を洗練させ続け、細かい詳細を取り除き、最も重要な線と形状のみを残します。その結果、さらなる解析に使用できる明確な輪郭と出力画像が得られます。

Link to this sectionエッジ検出と画像処理の進化#

エッジ検出について詳しく掘り下げる前に、それがどのように時間をかけて発展してきたかについて説明します。

画像処理は、しきい値処理（thresholding）やフィルタリングのような単純なルールベースの手法から始まり、画像のクリーニングや改善を行ってきました。アナログ時代には、これは写真やフィルムに対して、光学的フィルター、拡大鏡、または化学処理を使用して詳細を引き出すことを意味していました。

コントラスト調整、ノイズ除去、画像輝度の調整、基本的なエッジ検出といった技術が、入力画像をより明確にし、形状やテクスチャを強調するのに役立ちました。1960年代から70年代にかけて、アナログ処理からデジタル処理への移行が、天文学、医療用画像診断、衛星監視といった分野での現代的な解析への道を開きました。

1980年代から90年代までには、コンピュータの高速化により、特徴抽出、形状検出、基本的な物体認識といったより複雑なタスクに取り組むことが可能になりました。SobelオペレータやCannyのようなアルゴリズムはより精密なエッジ検出を提供し、パターン認識は産業オートメーションから光学的文字認識（OCR）による印刷テキストの読み取りに至るまで、あらゆる分野で応用されました。

Link to this section21世紀のエッジ検出とコンピュータビジョン#

今日、技術の着実な進歩により、コンピュータビジョンが発展しました。Vision AI、つまりコンピュータビジョンは、視覚情報を解釈・理解するように機械を教えることに焦点を当てたAIの一分野です。

ダブルしきい値処理（強いエッジを残し弱いエッジを取り除くことで画像を明確にする）やエッジ検出といった従来の画像処理は固定されたルールに従い、特定のタスクしか扱えませんでしたが、コンピュータビジョンはデータ駆動型のモデルを使用しており、例から学習して新しい状況に適応することができます。

現在、画像処理システムは単なる画像の強調やエッジ検出をはるかに超えています。システムは物体を認識し、動きを追跡し、シーン全体の文脈を理解することができます。

これを可能にする重要な技術の一つが畳み込み（コンボリューション）です。畳み込み演算とは、小さなフィルター（カーネルとも呼ばれます）が画像をスキャンして、エッジ、コーナー、テクスチャといった重要なパターンを見つけるプロセスです。これらのパターンが、コンピュータビジョンモデルが物体を認識・理解するための構成要素となります。

例えば、Ultralytics YOLO11のようなコンピュータビジョンモデルは、こうした畳み込みベースの特徴を使用してインスタンスセグメンテーションのような高度なタスクを実行します。これはエッジ検出と密接に関連しています。なぜなら、インスタンスセグメンテーションでは画像内の各物体の境界を正確に輪郭付ける必要があるからです。

エッジ検出が物体エッジをマークするためにエッジピクセルの輝度変化を見つけることに集中するのに対し、インスタンスセグメンテーションはその考え方を発展させ、各物体を検出・分類し、個別の領域に分離します。

YOLO11とインスタンスセグメンテーションの活用例

図3. YOLO11とインスタンスセグメンテーションの使用例。 (出典)

Link to this sectionエッジ検出のアルゴリズムとアプローチ#

コンピュータビジョンが発展しても、画像処理は依然として多くのアプリケーションにおいて重要な役割を果たしています。なぜなら、コンピュータビジョンは多くの場合、基本的な画像前処理ステップの上に構築されるからです。

物体を検出したりシーンを理解したりする前に、システムは通常、画像をクリーニングし、ノイズを低減し、エッジを見つけて重要な詳細を際立たせます。これらのステップにより、高度なモデルはより正確かつ効率的になります。

次に、エッジを検出するために使用される最も一般的な画像処理アルゴリズムと、その仕組みについて説明します。

Link to this sectionSobelエッジ検出#

Sobelエッジ検出は、画像内の物体の輪郭を見つけるために使用される重要な手法です。すべての詳細を一度に解析するのではなく、あるピクセルから隣接するピクセルへと明るさが急激に変化する領域に焦点を当てます。

これらの突然の変化は、通常、ある物体が終わり、別の物体が始まる場所や、物体が背景と接する場所を示しています。これらのエッジを分離することで、Sobelは複雑な画像を、動きの追跡、形状の検出、物体の認識といったタスクのために他システムが処理しやすい、よりクリーンな輪郭に変換します。

Sobelエッジ検出は、画像全体における輝度の変化を測定する勾配検出器と考えることができます。その核となる仕組みは畳み込み演算です。カーネルと呼ばれる小さな行列を画像上でスライドさせ、隣接するピクセル値の加重和を計算します。

これらのカーネルは、水平方向および垂直方向に沿った輝度の変化を強調するように設計されています。カーネルがデータから学習されるディープラーニングモデルとは異なり、Sobelはトレーニングを必要とせずに効率的にエッジを強調するために、固定されたカーネルを使用します。

Sobelエッジ検出手法がどのように機能するか、詳しく見てみましょう：

2つの3x3フィルターの使用: この手法では、フィルターと呼ばれる2つの小さな3x3グリッドを使用します。これらを、水平方向（x方向）および垂直方向（y方向）に画像をスライドするステンシルのようなものと考えてください。1つのグリッドは水平方向のエッジを見つけるために、もう1つは垂直方向のエッジを見つけるために設計されています。
勾配の計算: 各フィルターは明るさがどれだけ速く変化するかと、勾配の方向を求めます。大きな変化はエッジの可能性を意味します。
結果の統合: 水平方向と垂直方向の結果を統合し、各ピクセルにおける全体的なエッジ強度と方向を決定します。
エッジの検出: 勾配の大きさが大きいピクセルが、強いエッジとしてマークされます。
境界の輪郭付け: これらのエッジは、物体の形状を定義し、画像内の異なる領域を分離するのに役立ちます。

入力画像の主要な輪郭を強調するSobelエッジ検出

図4. Sobelエッジ検出は入力画像の主要な輪郭を強調し、エッジマップを生成できます。 (出典)

Link to this sectionCannyエッジ検出#

Cannyエッジ検出は、画像内のエッジを見つけるためのもう一つの人気のある手法です。クリーンで正確な輪郭を生成することで知られています。基本的なエッジ検出技術とは異なり、一連の慎重に設計されたステップに従ってノイズを除去し、境界をシャープにし、最も重要なエッジに焦点を当てます。

Cannyエッジ検出器がどのように機能するかの概要を説明します：

画像の平滑化: 画像は最初にガウスフィルターでぼかされます。これはノイズやエッジと間違われやすい小さな詳細を低減する平滑化技術です。
輝度変化の検出: 次にアルゴリズムは、輝度の急激な変化をスキャンし、勾配計算を使用してそれらの変化の強度と方向を測定します。
エッジの細線化: 検出された各線に沿った最も強い点のみが残され、弱い点は削除されるため、鮮明でクリーンなエッジが得られます。
エッジの分類: 各ピクセルは、輝度変化のしきい値に基づいて、強いエッジ、弱いエッジ、またはエッジではないものとしてラベル付けされます。
最終クリーニング: 強いエッジに繋がっている弱いエッジは保持され、それ以外はすべて破棄され、明確で繋がった境界のみが残ります。

Cannyエッジ検出器を使用した元の画像とその出力

図5. Cannyエッジ検出器を使用した後のオリジナル画像とその出力画像。 (出典)

正確な結果を提供しながらノイズをフィルタリングできるため、Cannyエッジ検出は精度が求められる分野で広く使用されています。例えば、医療用画像診断、衛星マッピング、ドキュメントスキャン、ロボットビジョンといった業界で使用されています。

Link to this section勾配ベース対ガウスベースのエッジ検出#

これまで見てきたエッジ検出の2つの例は、SobelとCannyです。どちらもエッジを見つけることを目的としていますが、その問題へのアプローチが異なります。

勾配ベースの手法（Sobel、Prewitt、Scharrなど）は、勾配と呼ばれる輝度の急激な変化を探すことでエッジを検出します。画像をスキャンし、この変化が最も強い場所をマークします。これらの手法は単純で高速であり、画像が鮮明な場合にうまく機能します。ただし、ノイズには敏感で、輝度のわずかな変化をエッジと間違えることがあります。

ガウスベースの手法（CannyやLaplacian of Gaussianなど）は、この問題を処理するために、最初に画像をぼかすという追加のステップを加えます。ガウスフィルターで頻繁に行われるこの平滑化は、偽のエッジを作り出す可能性のある小さな変動を低減します。平滑化した後、これらの手法は引き続き輝度の急激な変化を探しますが、ノイズが多い画像や低品質の画像に対しても結果はよりクリーンで正確になります。

勾配ベースのエッジ検出とガウスベースのエッジ検出の比較

図6. 勾配ベース対ガウスベースのエッジ検出。画像は著者によるもの。

Link to this sectionエッジ検出の現実世界のアプリケーション#

エッジ検出がどのように機能するかを理解したところで、それが現実世界の状況でどのように適用されているかを探ってみましょう。

Link to this sectionエッジ検出を使用したひび割れの特定#

橋や高層ビルといった大きなコンクリート構造物の点検は、しばしば困難で危険を伴うタスクです。これらの構造物は広範囲にわたったり、高所に達したりするため、従来の点検は時間がかかり、コストがかさみ、リスクを伴います。また、こうした点検には通常、足場、ロープアクセス、手作業による近接計測、または写真撮影が必要です。

2019年には興味深いアプローチが模索されました。研究者たちは、高解像度カメラを搭載したドローンを使用してコンクリート表面の詳細な入力画像をキャプチャし、より安全かつ高速な手法をテストしました。これらの画像は、ひび割れを自動的に特定するために、さまざまなエッジ検出技術で処理されました。

この研究により、危険な場所へ直接人間がアクセスする必要性が大幅に減り、点検が迅速化されることが示されました。しかし、その精度は依然として照明条件、画像の鮮明度、ドローンの安定した運用といった要因に依存していました。場合によっては、誤検出を排除するために依然として人間のレビューが必要でした。

Link to this section医療用画像診断におけるエッジ検出の適用#

X線やMRIにはしばしばノイズと呼ばれる視覚的な乱れが含まれており、これが微細な詳細を確認しづらくすることがあります。医師が腫瘍のエッジを見つけたり、臓器の輪郭をたどったり、時間の経過に伴う微妙な変化を監視したりしようとする際に、これが課題となります。

最近の医療用画像診断の研究では、Sobel、Canny、Prewitt、Laplacianといった一般的なエッジ検出手法が、ノイズの多い画像をどれだけうまく処理できるかをテストしました。研究者たちはさまざまな種類とレベルのノイズを画像に追加し、各手法がどれだけ正確に重要な特徴を輪郭付けできるかを確認しました。

Cannyはノイズが激しい場合でも通常最もクリーンなエッジを生成しましたが、すべてのケースで最適というわけではありませんでした。特定の手法は特定のノイズパターンでよりうまく機能したため、完璧な単一のソリューションというものはありません。

ノイズが増加してもSobelより鮮明なエッジを提供するCanny

図7. ノイズが増えるにつれて、Canny（d–f）はSobel（g–i）よりも明確なエッジを提供します。 (出典)

このことは、なぜコンピュータビジョンのような技術がこれほど重要なのかを浮き彫りにしています。高度なアルゴリズムとVision AIモデルを組み合わせることで、こうしたソリューションは基本的なエッジ検出を超え、困難な状況下でもより正確で信頼性の高い結果をもたらすことができます。

Link to this sectionエッジ検出の利点#

エッジ検出と画像処理を使用することのメリットをいくつか挙げます：

より優れたデータ圧縮: エッジ検出により、画像を重要な特徴のみを使用して表現できるため、本質的な情報を保持しながらファイルサイズを削減できます。これにより、保存と転送がより効率的になります。
より正確な物体位置特定: 物体の境界を正確に特定することにより、エッジ検出はシステムが物体を位置特定し追跡する能力を向上させ、ロボットにおけるAIや自動運転車などのアプリケーションに利益をもたらします。
マルチスケール特徴検出: エッジ検出技術はさまざまなスケールで画像を解析でき、小さな詳細とより大きな形状の両方を捉えることができます。この柔軟性は、テクスチャ解析からシーン理解まで、さまざまなタスクにおいて有用です。

Link to this sectionエッジ検出に画像処理を使用する場合の制限#

画像処理におけるエッジ検出には多くの利点がありますが、いくつかの課題も伴います。考慮すべき主要な制限をいくつか挙げます：

複雑なテクスチャに関する問題: 複雑または繰り返しのパターンがある画像では、エッジ検出は多くの場合、多くの偽または無関係なエッジを生成し、その後の解析を複雑にし、信頼性を低下させます。
照明への敏感さ: 明るさ、影、反射の変動により、エッジ検出器が照明の変化を物体の境界と誤解し、結果が不安定になる可能性があります。
物体識別ができない: エッジはどこからが物体でどこまでが物体かを示しますが、その物体が何であるかを表示するわけではありません。検出されたエッジに意味やラベルを割り当てるには、追加の処理が必要です。

Link to this sectionコンピュータビジョンをエッジ検出に使用できる場合#

エッジ検出は、私たちが世界を理解するために目と脳がどのように連携して機能するかに着想を得ています。人間の視覚に関しては、視覚野の特殊なニューロンがエッジ、線、境界に対して非常に敏感です。

これらの視覚的な手がかりは、ある物体が終わり、別の物体がどこで始まるかを迅速に判断するのに役立ちます。これが、単純な線画であっても即座に認識できる理由です。私たちの脳は、形状や物体を識別するためにエッジに大きく依存しています。

コンピュータビジョンはこの能力を模倣することを目指していますが、さらに一歩進んでいます。Ultralytics YOLO11のようなモデルは、基本的なエッジ強調や画像改善を超えています。これらは物体を検出し、精度高く輪郭を描き、リアルタイムで動きを追跡できます。このより深いレベルの理解により、エッジ検出だけでは不十分なシナリオにおいて、これらのモデルが不可欠となります。

Link to this sectionUltralytics YOLO11を使用してより正確にエッジを検出する#

YOLO11によってサポートされる、エッジ検出を基盤とし、それを超えるいくつかの主要なコンピュータビジョンタスクを紹介します：

物体検出: 各物体の周囲にバウンディングボックスを描画することで、画像またはビデオ内の複数の物体を特定および位置特定し、何が存在し、各物体がどこに配置されているかを明確に把握できるようにします。
インスタンスセグメンテーション: これには物体をピクセルレベルまで分解することが含まれ、物体が重なっていたり不規則な形状であったりする場合でも、クリーンで正確な輪郭を生成します。
姿勢推定: オブジェクトや人物の位置、向き、姿勢を特定することを目的とし、動きの監視や経時的な構造変化の検出に役立ちます。
オブジェクトトラッキング: ビデオフレーム内で移動するオブジェクトを追跡し、長期的な観察において一貫した識別を可能にするタスクです。
画像分類: 視覚的特徴に基づいてオブジェクトや画像全体にラベルを割り当て、大規模なデータセットの整理や解釈を容易にします。

Link to this sectionコンピュータビジョンによるインフラの境界（エッジ）検出#

従来のエッジ検出に依存していたアプリケーションをコンピュータビジョンで強化する好例として、インフラや産業用資産における亀裂検出があります。YOLO11のようなコンピュータビジョンモデルを学習させることで、道路、橋、パイプライン上の亀裂を正確に特定できます。この手法は航空機のメンテナンス、建物検査、製造品質管理にも応用でき、検査の迅速化と安全性の向上に貢献します。

YOLO11を使用したひび割れセグメンテーションの例