画像認識によってAIがどのようにビジュアルをclassify ・理解し、ヘルスケア、小売、セキュリティなどのイノベーションを推進しているかをご覧ください。
画像認識は、コンピュータビジョン(CV)という広範な分野における基盤技術であり、ソフトウェアシステムがデジタル画像内の物体、人物、場所、テキストを識別することを可能にします。画像や動画フレームのピクセル内容を分析することで、この技術は人間の目と脳の視覚的知覚能力を模倣しようと試みます。 人工知能(AI)によって駆動される画像認識は、構造化されていない視覚データを構造化された実用的な情報に変換し、医療から自律走行技術に至る産業における自動化の基盤として機能する。
現代の画像認識システムは、従来のルールベースプログラミングから脱却し、 深層学習(DL)アルゴリズムに大きく依存するようになった。 これらのタスクに最も広く用いられるアーキテクチャは 畳み込みニューラルネットワーク(CNN)である。 CNNは画像を値のグリッドとして処理する——通常は赤、緑、青(RGB)の色チャンネルを表す—— そしてそれらを数学的演算の複数の層に通す。
この過程において、ネットワークは特徴抽出を行う。初期層ではエッジやコーナーといったdetect 幾何学的パターンをdetect 一方、深層ではこれらのパターンを集約し、目や車輪、葉といった複雑な構造を認識する。高い精度を達成するため、これらのモデルには膨大な量のラベル付き訓練データが必要となる。大規模な公開データセット、例えば ImageNetなどの大規模な公開データセットは、特定の視覚的配置が「猫」「自転車」「停止標識」といった概念に対応する統計的確率をモデルが学習するのに役立ちます。
「画像認識」という用語は包括的な表現として頻繁に使用されるが、他の特定のコンピュータビジョンタスクとは区別される。プロジェクトに適したモデルを選択するには、これらのニュアンスを理解することが極めて重要である:
画像認識の有用性は、視覚データが生成されるほぼすべての分野に及んでいる。
開発者や研究者にとって、画像認識の実装は、
最先端モデルのような技術により、格段に容易になりました。 YOLO26ネイティブに分類、検出、セグメンテーションをサポートします。以下の例は、画像に対して認識(具体的には物体検出)を実行する方法を示します。 ultralytics Python パッケージ。
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (n for nano, fastest speed)
model = YOLO("yolo26n.pt")
# Run inference on an image to recognize and locate objects
# The source can be a file path, URL, or webcam (source=0)
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes and labels
results[0].show()
クラウド上で独自のデータセットにアノテーションを付与し、カスタムモデルをトレーニングしたいチーム向けに、 Ultralytics 画像認識プロジェクトの全ライフサイクル(データ収集からデプロイまで)を管理する 合理化された環境を提供します。
計算能力の向上に伴い、画像認識は動画理解へと進化している。システムは複数のフレームにわたる時間的文脈を分析する。さらに生成AIの統合により、システムは画像を認識するだけでなく、その詳細なテキスト記述を生成できるようになり、自然言語処理(NLP)と視覚処理の間のギャップを埋めている。