Yolo 深圳
深セン
今すぐ参加
用語集

畳み込み

畳み込みがコンピュータビジョンのAIをどのように強化し、オブジェクト検出、画像認識、精密な医療画像処理などのタスクを可能にするかを学びます。

畳み込みは特殊な数学演算であり、現代のコンピュータ・ビジョン(CV)システムの基本的な構成要素となっている。 コンピュータビジョン(CV)システムの基本的な構成要素となっている。人工知能(AI)の文脈では 人工知能 人工知能(AI)の文脈では、コンボリューションは、系統的に入力をフィルタリングして意味のあるパターンを抽出することによって、画像などのグリッド状のデータを処理するモデルを可能にする。 意味あるパターンを抽出する。手作業によるルール設定を必要とする従来のアルゴリズムとは異なり、畳み込みによってニューラルネットワークは ニューラルネットワークは自動的に空間的 単純なエッジやテクスチャから複雑な物体形状に至るまで、特徴量の空間的階層を自動的に学習することができる。 脳の視覚野で観察される生物学的プロセスを模倣している。

畳み込みのメカニズム

この操作は、カーネルまたはフィルターとして知られる小さな数値の行列を、入力画像上でスライドさせることで機能する。 カーネルまたはフィルターと呼ばれる小さな行列を入力画像上でスライドさせる。各位置で 各位置で、カーネルは重なり合ったピクセル値と要素ごとの乗算を行い、その結果を合計して1つの出力ピクセルを生成する。 1つの出力ピクセルを生成する。この処理により 特徴マップが生成される。 特徴マップが生成される。

コンボリューションの動作を定義する主要なパラメーターには、以下のものがある:

  • カーネルサイズ:フィルタの寸法(例えば3x3や5x5)。 一度に考慮される入力の領域を決定する。 受容野と呼ばれる。
  • ストライド:フィルターが画像上を移動するステップの大きさ。ストライドを大きくすると ストライドを大きくすると出力 になり、 効果的にデータをダウンサンプリングします。
  • パディング:出力の空間サイズを制御するために、入力にボーダーピクセル(通常はゼロ)を追加すること。 この概念は PyTorch ドキュメントに詳しい。

ディープラーニングにおける関連性

畳み込みは 畳み込みニューラルネットワーク(CNN)の主要なエンジンである。その重要性は2つの主要な特性にある。 空間的局所性である。画像全体で同じ モデル重み(カーネル)を画像全体にわたって使用することで ネットワークは計算効率が高く、また 並進不変性、 つまり、オブジェクトがフレーム内のどこに表示されていても認識することができる。この効率性により のような高度なアーキテクチャが可能になる。 YOLO11のような洗練されたアーキテクチャが 強力なGPUからリソースに制約のある エッジAIデバイス。

実際のアプリケーション

コンボリューションの有用性は、ビジュアルデータを利用する事実上すべての業界に及ぶ:

  • 医用画像解析:医療におけるAI 医療におけるAIでは、畳み込みによってアルゴリズムが スキャン MRIやCTスキャンで 微細な異常を特定することができる。例えば、特定のカーネルを訓練することで、早期の腫瘍に関連する不規則なテクスチャーを強調することができる。 例えば、特定のカーネルを学習させることで、早期の腫瘍に関連する不規則なテクスチャーを強調することができ、放射線科医が正確な診断を下せるようになる。
  • 自律走行ナビゲーション:自動運転車は、物体検出のためにコンボリューションに大きく依存している。 物体検出と 画像分割に大きく依存しています。システムはビデオ 車線、歩行者、交通標識などを区別するためだ。 車載AIは安全で瞬時の運転判断を下すことができる。 運転判断を可能にする。

畳み込みと完全連結レイヤーの比較

畳み込みと完全連結(密)層を区別することは重要である。完全連結 層では、すべての入力ニューロンがすべての出力ニューロン に接続される。 画像の空間構造を無視する。逆に、畳み込みは空間的関係を保持し、パラメータ数を大幅に削減する。 高次元データのオーバーフィッティングを防ぐ。 データのオーバーフィッティングを防ぐ。密な層は最終的な分類に使われることが多いが、畳み込み層は特徴抽出の重労働を処理する。 特徴抽出を行う。

Ultralytics畳み込みを実装する

最新のオブジェクト検出器の畳み込みアーキテクチャは、次のようにして視覚化できる。 ultralytics パッケージを使用します。次のコードは YOLO11 モデルを印刷し、その構造を明らかにする。 Conv2d 処理に使用されるレイヤー。

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Print the model architecture to observe Conv2d layers
# These layers perform the convolution operations to extract features
print(model.model)

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加