YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

画像認識

画像認識が、AIが視覚を分類し理解することをどのように可能にし、ヘルスケア、小売、セキュリティなどのイノベーションを推進するかを発見してください。

画像認識は、マシンがデジタル画像やビデオ内のオブジェクト、人物、場所、およびアクションを識別し、解釈できるようにするコンピュータビジョンの広範な分野です。顔認証によるスマートフォンのロック解除から、自動運転車が複雑な環境をナビゲートできるようにすることまで、数え切れないほどのアプリケーションを支える基本的なテクノロジーです。その中核として、画像認識は機械学習(ML)深層学習(DL)アルゴリズムを使用してピクセルを分析し、意味のあるパターンを抽出し、視覚情報を理解する人間の能力を模倣します。

画像認識と関連タスク

画像認識は、しばしば同じ意味で使用されますが、より具体的なタスクを包含する一般的な用語です。そのサブフィールドと区別することが重要です。

  • 画像分類: これは、画像認識の最も単純な形式です。事前定義されたカテゴリのセットから、画像全体に単一のラベルを割り当てることを含みます。たとえば、モデルは画像を「猫」、「犬」、または「車」を含むものとして分類する場合があります。出力は画像全体に対する1つのラベルです。
  • 物体検出: より高度なタスクである物体検出は、画像内のオブジェクトを分類するだけでなく、通常はそれぞれの周りにバウンディングボックスを描画することによって、それらを特定します。たとえば、自動運転車は、物体検出を使用して、歩行者、他の車両、および交通標識を識別して特定します。
  • 画像セグメンテーション: このタスクは、画像内の各オブジェクトに属する正確なピクセルを識別することにより、さらに一歩進んでいます。オブジェクトの形状と境界を深く理解する必要があるアプリケーション(医療画像解析など)に不可欠な、各オブジェクトの詳細なマスクを作成します。

画像認識の仕組み

現代の画像認識は、主にConvolutional Neural Networks (CNNs)によって実現されています。これは、画像のようなグリッド状のデータの処理に特に効果的なニューラルネットワークの一種です。そのプロセスは通常、次のようになります。

  1. データ収集: ラベル付けされた画像の大きなデータセットが収集されます。有名な例としては、ImageNetCOCOなどがあります。
  2. モデルのトレーニング: CNNはこのデータセットでトレーニングされます。トレーニング中、ネットワークは、単純なエッジやテクスチャから複雑なオブジェクトパーツまで、特徴抽出と呼ばれるプロセスを通じてパターンを識別することを学習します。モデルの重みは、その予測と正解ラベルの間の差を最小限に抑えるように調整されます。
  3. 推論(Inference): 学習済みのモデルは、新しい、未知の画像に対して予測を行うことができます。この学習済みモデルを適用するプロセスを推論と呼びます。

実際のアプリケーション

画像認識は多くの業界で不可欠なものとなっています。

  • 医療: 医療におけるAIでは、画像認識は、放射線科医がX線、MRI、CTスキャンで腫瘍、骨折、その他の異常を検出するのに役立ちます。たとえば、モデルは医療画像のデータセットでトレーニングして、高い精度で脳腫瘍を特定し、医師がより迅速な診断を下せるように支援できます。
  • Retail: 小売業者は、カメラで棚を監視して製品の在庫が少なくなっていることを検出することにより、在庫管理に画像認識を使用しています。顧客が写真をアップロードして類似の製品を見つけることができるeコマースサイトのビジュアル検索機能も、一般的なアプリケーションです。詳細については、小売におけるAIに関するページをご覧ください。

ツールとトレーニング

画像認識アプリケーションの開発には、多くの場合、特殊なライブラリとフレームワークの使用が含まれます。主なテクノロジーは次のとおりです。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました