Yolo 深圳
深セン
今すぐ参加
用語集

画像認識

画像認識によってAIがどのようにビジュアルをclassify ・理解し、ヘルスケア、小売、セキュリティなどのイノベーションを推進しているかをご覧ください。

画像認識は、コンピュータビジョン(CV)という広範な分野における基盤技術であり、ソフトウェアシステムがデジタル画像内の物体、人物、場所、テキストを識別することを可能にします。画像や動画フレームのピクセル内容を分析することで、この技術は人間の目と脳の視覚的知覚能力を模倣しようと試みます。 人工知能(AI)によって駆動される画像認識は、構造化されていない視覚データを構造化された実用的な情報に変換し、医療から自律走行技術に至る産業における自動化の基盤として機能する。

中核メカニズムと技術

現代の画像認識システムは、従来のルールベースプログラミングから脱却し、 深層学習(DL)アルゴリズムに大きく依存するようになった。 これらのタスクに最も広く用いられるアーキテクチャは 畳み込みニューラルネットワーク(CNN)である。 CNNは画像を値のグリッドとして処理する——通常は赤、緑、青(RGB)の色チャンネルを表す—— そしてそれらを数学的演算の複数の層に通す。

この過程において、ネットワークは特徴抽出を行う。初期層ではエッジやコーナーといったdetect 幾何学的パターンをdetect 一方、深層ではこれらのパターンを集約し、目や車輪、葉といった複雑な構造を認識する。高い精度を達成するため、これらのモデルには膨大な量のラベル付き訓練データが必要となる。大規模な公開データセット、例えば ImageNetなどの大規模な公開データセットは、特定の視覚的配置が「猫」「自転車」「停止標識」といった概念に対応する統計的確率をモデルが学習するのに役立ちます。

認識と関連概念の区別

「画像認識」という用語は包括的な表現として頻繁に使用されるが、他の特定のコンピュータビジョンタスクとは区別される。プロジェクトに適したモデルを選択するには、これらのニュアンスを理解することが極めて重要である:

  • 認識と 画像分類 分類とは、画像全体に単一のラベルを割り当てるタスクである(例:写真を「ビーチ」とラベル付けする)。認識とは、システムが内容を理解することを可能にするより広範な能力である。
  • 認識と物体検出 認識は画像内の対象物を特定するのに対し、検出はその位置を特定します。検出アルゴリズムは各物体インスタンスの周囲に境界ボックスを描画し、背景から分離します。
  • 認識 vs. インスタンスセグメンテーション: これは認識をさらに一歩進め、単なるボックスではなく、オブジェクトの正確なピクセル輪郭を特定します。 これは、生体医学画像解析など、精密な測定を必要とするアプリケーションにおいて極めて重要です。

実際のアプリケーション

画像認識の有用性は、視覚データが生成されるほぼすべての分野に及んでいる。

  • 医療診断:医療分野では、認識アルゴリズムがX線やMRIなどの医療画像分析を通じて放射線科医を支援する。 放射線科におけるAIのようなツールは、腫瘍や骨折などの異常を、人間の観察のみよりも迅速に、時にはより正確に特定できる。
  • 小売と在庫管理: スマートスーパーマーケットでは track 棚から取り出される際に認識技術を用いてtrack 、自動レジシステムを実現しています。 同様に、倉庫ロボットもこの技術を用いて荷物の識別と仕分けを行います。
  • セキュリティとアクセス制御: 顔認識システムは、保存された顔埋め込みデータのデータベースと照合して身元を確認することで、 スマートフォンや建物への安全なアクセスを可能にします。

YOLO26を用いた画像認識の実装

開発者や研究者にとって、画像認識の実装は、 最先端モデルのような技術により、格段に容易になりました。 YOLO26ネイティブに分類、検出、セグメンテーションをサポートします。以下の例は、画像に対して認識(具体的には物体検出)を実行する方法を示します。 ultralytics Python パッケージ。

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (n for nano, fastest speed)
model = YOLO("yolo26n.pt")

# Run inference on an image to recognize and locate objects
# The source can be a file path, URL, or webcam (source=0)
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results with bounding boxes and labels
results[0].show()

クラウド上で独自のデータセットにアノテーションを付与し、カスタムモデルをトレーニングしたいチーム向けに、 Ultralytics 画像認識プロジェクトの全ライフサイクル(データ収集からデプロイまで)を管理する 合理化された環境を提供します。

今後の動向

計算能力の向上に伴い、画像認識は動画理解へと進化している。システムは複数のフレームにわたる時間的文脈を分析する。さらに生成AIの統合により、システムは画像を認識するだけでなく、その詳細なテキスト記述を生成できるようになり、自然言語処理(NLP)と視覚処理の間のギャップを埋めている。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加