Ultralytics YOLOによる画像分類について学びましょう。最先端のツールを使用して、医療、農業、小売などの分野向けにカスタムモデルをトレーニングできます。
画像分類は、コンピュータビジョン(CV)における基本的なタスクであり、定義済みのカテゴリセットから、画像全体に単一の特定のラベルを割り当てることを伴います。主な目標は、画像の主要な被写体を識別し、それに応じて分類することです。たとえば、分類モデルは画像を分析し、「猫」、「犬」、「車」のようなラベルを出力します。このタスクは、より複雑なCVアプリケーションの基礎を形成し、機械学習(ML)のコアコンポーネントです。このプロセスは、アルゴリズム、特に畳み込みニューラルネットワーク(CNN)に依存して、ラベル付けされた大規模なデータセットから識別機能を学習します。
画像分類モデルは、教師あり学習を使用してトレーニングされます。ここでは、正しいクラスで手動でラベル付けされた膨大な数の画像が供給されます。トレーニング中、ニューラルネットワークは、各カテゴリに関連付けられたパターン、テクスチャ、形状、および色の組み合わせを学習します。この学習は、バックプロパゲーションと呼ばれるプロセスを通じて実現されます。これは、モデルの予測と実際のラベルの間の差を最小限に抑えるために、モデルの内部パラメータ、つまり重みを調整します。
最新の分類モデルでは、多くの場合、多層の深層学習アーキテクチャが使用されます。初期の層はエッジやコーナーのような単純な特徴を認識するように学習し、より深い層はそれらを組み合わせて目、車輪、顔のようなより複雑な構造を識別します。ネットワークの最終層は通常、ソフトマックス関数を使用して、考えられる各クラスの確率スコアを生成します。最も高い確率を持つクラスが最終的な予測として選択されます。このプロセスで重要なのは特徴抽出であり、モデルは分類タスクに最も有益な特徴を自動的に学習します。
画像分類は、視覚認識タスクを自動化および拡張するために、多くの業界で使用されています。2つの顕著な例を以下に示します。
画像分類は他のコンピュータビジョンタスクと密接に関連していますが、明確な目的があります。以下と区別することが重要です。
まとめると、分類は画像に何があるかを伝え、検出は何がどこにあるかを伝え、セグメンテーションはシーン内のすべてのものの詳細なピクセルレベルのマップを提供します。
Ultralytics YOLOモデルは、物体検出で有名ですが、画像分類タスクにも優れています。YOLOv8のような最先端モデルは、直感的なUltralytics PythonパッケージまたはノーコードのUltralytics HUBプラットフォームを使用して、カスタムデータセットで簡単に学習またはファインチューニングできます。
ドキュメントには、モデルの学習に関するヒントや、YOLO11を画像分類に使用する方法に関する詳細なガイドなど、豊富なリソースが用意されています。開発者は、ImageNet、CIFAR-100、Caltech-101などのベンチマークデータセットで事前学習済みのモデルを活用したり、新しいモデルをスクラッチから学習したりできます。最新の進歩に関心のある方には、Papers With Codeのようなリソースが、トップパフォーマンスのモデルの包括的な概要を提供します。また、標準的なベンチマークでYOLOモデルのパフォーマンスを比較することもできます。PyTorchやTensorFlowのようなフレームワークは、これらのモデルを構築および学習するための基盤を提供します。