用語集

画像認識

画像認識によってAIがどのようにビジュアルを分類・理解し、ヘルスケア、小売、セキュリティなどのイノベーションを推進しているかをご覧ください。

画像認識は、機械がデジタル画像やビデオ内の物体、人物、場所、行動を識別し、解釈することを可能にするコンピュータビジョンの広い分野である。これは、あなたの顔で携帯電話のロックを解除することから、複雑な環境をナビゲートする自律走行車を可能にすることまで、数え切れないほどのアプリケーションに力を与える基本的な技術です。その中核となる画像認識は、機械学習(ML)と深層学習(DL)アルゴリズムを使用してピクセルを分析し、視覚情報を理解する人間の能力を模倣して意味のあるパターンを抽出する。

画像認識と関連タスクの比較

画像認識は一般的な用語であり、いくつかの具体的なタスクを包含しています。その下位分野と区別することが重要である:

  • 画像分類これは画像認識の最も単純な形式である。あらかじめ定義されたカテゴリ・セットから、画像全体に単一のラベルを割り当てる。例えば、モデルは画像を "猫"、"犬"、"車 "のいずれかに分類する。出力は画像全体に対する1つのラベルである。
  • オブジェクト検出より高度なタスクである物体検出は、画像内の物体を分類するだけでなく、通常、それぞれの物体の周囲にバウンディングボックスを描くことによって、物体の位置を特定する。例えば自動運転車は、物体検出を使って歩行者、他の車両、交通標識を識別し、位置を特定する。
  • 画像のセグメンテーションこのタスクは、画像内の各オブジェクトに属する正確なピクセルを特定することで、さらに一歩進めます。各オブジェクトの詳細なマスクを作成します。これは、医療画像解析など、オブジェクトの形状や境界を深く理解する必要があるアプリケーションでは非常に重要です。

画像認識の仕組み

現代の画像認識は、画像のような格子状データの処理に特に効果的なニューラルネットワークの一種である、畳み込みニューラルネットワーク(CNN)によって主に行われている。この処理には通常、次のようなものが含まれる:

  1. データ収集:ラベル付き画像の大規模なデータセットを収集する。ImageNetや COCOなどが有名。
  2. モデルのトレーニング:CNNはこのデータセットで学習される。学習中、ネットワークは特徴抽出と呼ばれるプロセスを通じて、単純なエッジやテクスチャから複雑なオブジェクト部分まで、パターンを識別することを学習する。モデルの重みは、予測と真実のラベルの差を最小化するように調整される。
  3. 推論:一度学習したモデルは、新しい未見の画像に対して予測を行うことができる。訓練されたモデルを適用するこのプロセスを推論と呼ぶ。

実世界での応用

画像認識は多くの産業にとって不可欠なものとなっている:

  • ヘルスケア ヘルスケアにおけるAIでは、画像認識が放射線科医のX線、MRI、CTスキャンにおける腫瘍、骨折、その他の異常の検出に役立っている。例えば、医療画像のデータセットでモデルを訓練することで、脳腫瘍を高い精度で特定し、医師がより迅速に診断できるよう支援することができる。
  • 小売業小売業では、カメラで棚を監視し、商品の在庫切れを検知することで、在庫管理に画像認識を活用している。顧客が写真をアップロードして類似商品を検索できるEコマースサイトのビジュアル検索機能も、人気のあるアプリケーションのひとつです。詳しくは、小売業におけるAIのページをご覧ください。

ツールとトレーニング

画像認識アプリケーションの開発では、多くの場合、専用のライブラリやフレームワークを使用する。主なテクノロジーは以下の通り:

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク