Ultralytics YOLO :最先端のツールを使用して、ヘルスケア、農業、小売業などのカスタムモデルをトレーニングします。
画像分類はコンピュータビジョン(CV)の基本的なタスクであり、視覚的コンテンツに基づいて画像全体に単一のラベルまたはカテゴリを割り当てることを含む。これは人工知能(AI)の中核的な機能であり、人間がシーンや物体を認識するのと同様に、機械が画像を理解し分類することを可能にする。機械学習(ML)、特にディープラーニング(DL)の技術を活用することで、画像分類は質問に答えることを目的としている:「この画像の主な被写体は何か?このタスクは、より複雑な多くの視覚理解問題のためのビルディングブロックとして機能する。
このプロセスでは通常、ラベル付けされた画像の大規模なデータセットに対して、モデル(多くの場合、畳み込みニューラルネットワーク(CNN)と呼ばれる特殊なニューラルネットワーク)を学習させる。ImageNetのような有名なデータセットは、何千ものカテゴリーにわたる何百万もの画像を含んでおり、ロバストモデルの訓練によく使われる。学習中、モデルは、テクスチャ、形状、エッジ、色分布など、異なるカテゴリを特徴付けるパターンや特徴を識別することを学習する。フレームワーク PyTorchや TensorFlowなどのフレームワークは、これらのディープラーニングモデルの構築と学習に必要なツールとライブラリを提供します。CIFAR-100や MNISTのような様々なUltralytics 分類データセットを探索し、独自のプロジェクトを始めることができる。最終的な目標は、訓練されたモデルが新しい、以前に見たことのない画像のクラスラベルを正確に予測することです。基礎となるメカニズムをより深く技術的に理解するには、スタンフォード大学のCS231nコース「Convolutional Neural Networks for Visual Recognition(視覚認識のための畳み込みニューラルネットワーク)」のようなリソースが包括的な教材を提供しています。
画像分類は、画像全体に単一の包括的なラベルを割り当てることに重点を置いている。このため、他の一般的なコンピュータ・ビジョン・タスクとは一線を画している:
これらの違いを理解することは、特定の問題に対して適切な技術を選択するために非常に重要である。
画像分類は、視覚情報を分類するのに有効であるため、様々な領域で広く使用されている:
Ultralytics YOLO モデルは物体検出で有名だが、画像分類タスクでも高い性能を発揮する。最先端のアーキテクチャ Ultralytics YOLO11のような最先端のアーキテクチャは、直感的なUltralytics Python パッケージやコード不要のUltralytics HUBプラットフォームを使って、分類のためのトレーニングや微調整を簡単に行うことができます。これらのツールは、モデルトレーニングのヒントや、画像分類のためのUltralytics YOLO11 使用方法のガイドのような明確なドキュメントを含む包括的なリソースを提供します。さらに練習したい場合は、PyTorch 分類チュートリアルを調べたり、Kaggleの画像分類コンテストに参加することを検討してください。最新の研究動向を知るには、Papers With Codeのようなリソースは非常に貴重です。また、標準的なベンチマークで YOLO モデルのパフォーマンスを比較することもできます。