畳み込みがコンピュータビジョンのAIをどのように強化し、オブジェクト検出、画像認識、精密な医療画像処理などのタスクを可能にするかを学びます。
畳み込みは特殊な数学演算であり、現代のコンピュータ・ビジョン(CV)システムの基本的な構成要素となっている。 コンピュータビジョン(CV)システムの基本的な構成要素となっている。人工知能(AI)の文脈では 人工知能 人工知能(AI)の文脈では、コンボリューションは、系統的に入力をフィルタリングして意味のあるパターンを抽出することによって、画像などのグリッド状のデータを処理するモデルを可能にする。 意味あるパターンを抽出する。手作業によるルール設定を必要とする従来のアルゴリズムとは異なり、畳み込みによってニューラルネットワークは ニューラルネットワークは自動的に空間的 単純なエッジやテクスチャから複雑な物体形状に至るまで、特徴量の空間的階層を自動的に学習することができる。 脳の視覚野で観察される生物学的プロセスを模倣している。
この操作は、カーネルまたはフィルターとして知られる小さな数値の行列を、入力画像上でスライドさせることで機能する。 カーネルまたはフィルターと呼ばれる小さな行列を入力画像上でスライドさせる。各位置で 各位置で、カーネルは重なり合ったピクセル値と要素ごとの乗算を行い、その結果を合計して1つの出力ピクセルを生成する。 1つの出力ピクセルを生成する。この処理により 特徴マップが生成される。 特徴マップが生成される。
コンボリューションの動作を定義する主要なパラメーターには、以下のものがある:
畳み込みは 畳み込みニューラルネットワーク(CNN)の主要なエンジンである。その重要性は2つの主要な特性にある。 空間的局所性である。画像全体で同じ モデル重み(カーネル)を画像全体にわたって使用することで ネットワークは計算効率が高く、また 並進不変性、 つまり、オブジェクトがフレーム内のどこに表示されていても認識することができる。この効率性により のような高度なアーキテクチャが可能になる。 YOLO11のような洗練されたアーキテクチャが 強力なGPUからリソースに制約のある エッジAIデバイス。
コンボリューションの有用性は、ビジュアルデータを利用する事実上すべての業界に及ぶ:
畳み込みと完全連結(密)層を区別することは重要である。完全連結 層では、すべての入力ニューロンがすべての出力ニューロン に接続される。 画像の空間構造を無視する。逆に、畳み込みは空間的関係を保持し、パラメータ数を大幅に削減する。 高次元データのオーバーフィッティングを防ぐ。 データのオーバーフィッティングを防ぐ。密な層は最終的な分類に使われることが多いが、畳み込み層は特徴抽出の重労働を処理する。 特徴抽出を行う。
最新のオブジェクト検出器の畳み込みアーキテクチャは、次のようにして視覚化できる。
ultralytics パッケージを使用します。次のコードは
YOLO11 モデルを印刷し、その構造を明らかにする。
Conv2d 処理に使用されるレイヤー。
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Print the model architecture to observe Conv2d layers
# These layers perform the convolution operations to extract features
print(model.model)